当前位置:首页 > SEO培训 > 正文内容

如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?

admin3年前 (2022-07-29)SEO培训686

为了你的网站可以被别人搜寻到,搜寻引擎爬虫,有时也称为搜寻机器人(bots)或是搜寻蜘蛛(spiders),会爬取你的网站,搜寻有变动的内容并且重新更新搜寻引擎的搜寻检索。


如何用robts.txt 这个档桉去控制搜寻蜘蛛

网站站长可以使用robots.txt这个文件,来指导搜寻蜘蛛应该如何爬取这个网站,当搜寻引擎爬取网站时,会先读取robots.tx 文件,并且依照规则爬取网站。


※ robots.txt 规则虽然是重要的,但是搜寻机器人不一定会遵守 robot.txt 规则,它只是一个执行方针。

※ 以Google而言,要设定Crawl-delay,是必须在Google管理工具裡设定。

※ 对于浮滥爬取你的网站的劣质搜寻蜘蛛,应该研究如何凭藉.htaccess裡的User-agent去阻挡不好的搜寻蜘蛛。


编辑与创建robots.txt 文件

Robots.txt 文件是必须放在网站根目录里,如果你的网址是******.com 是可以读取到的。


网址位置:


http://******.com/robots.txt


伺服器位置:


/home/userna5/public_html/robots.txt


如果没有这个档桉的话,你可以使用纯文件档桉建立一个新的robots.txt文件。


搜寻引擎的使用者代理

以搜寻引擎蜘蛛的User-agent来说,使用robots.txt文件来控制,是最普通的规范方式。


当搜寻蜘蛛爬取网站时,他们会以使用者代理User-agent来识别、以下提供些参考范例


前三名美国最常发现的搜寻引擎使用者代理:

Googlebot

Yahoo! Slurp

bingbot


最常被阻挡的搜寻引擎使用者代理:

AhrefsBot

Baiduspider

Ezooms

MJ12bot

YandexBot


搜寻引擎蜘蛛是会以robots.txt文件规则来抓取网站

robots.txt 文件有许多的规则,可以控制搜寻蜘蛛如何爬取你得网站。


User-agent:可以具体指定哪一个User-agent是适用的,如*是万用搭配于全部的User-agent。


Disallow:设定档桉或是资料夹,不允许被搜寻蜘蛛爬取。


设定全部搜寻引擎延迟爬取

如果你的网站有1000页,搜寻蜘蛛可能在几分钟内检索全部的网站,然而这有可能导致系统资源使用过度,在短时间内让全部的网页超过负荷,导致网页无法浏览。


延迟30秒的时间,将允许搜寻蜘蛛在8.3小时内检索1000张网页。


延迟500秒的时间,将允许搜寻蜘蛛在5.8天内检索1000张网页。


你也可以设定Crawl-delay:所有的搜寻蜘蛛立即搜寻。


User-agent: *

Crawl-delay: 30


允许搜寻蜘蛛爬取全部网站

在预设空白情况下,搜寻引擎蜘蛛还是会爬取你的网站,不过你还是可以指定它是允许的。


User-agent: *

Disallow:


不允许搜寻蜘蛛爬取全部网站

User-agent: *

Disallow: /


不允许搜寻蜘蛛爬取特定一个网站

你可以运用这些规则,不允许特定的搜寻引擎蜘蛛爬取你的网站。


User-agent: Baiduspider

Disallow: /


不允许全部搜寻蜘蛛爬取特定的档桉

如果有些档桉如contactus.htm, index.htm, 或是store.htm我们不想要搜寻蜘蛛爬取,我可以使用:


User-agent: *

Disallow: /contactus.htm

Disallow: /index.htm

Disallow: /store.htm


除了指定的以外,不允许全部搜寻蜘蛛爬取

如果我们只想让Googlebot爬取我们的/private/目录,但是不允许其他搜寻蜘蛛爬取,我们可以这样使用:


User-agent: *

Disallow: /

User-agent: Googlebot

Disallow: /private/


当Googlebot读取我的robots.txt文件时,会去理解文件内容,不会禁止全部目录的爬取。

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://www.laosuseo.com/?id=3696

标签: robots.txt
分享给朋友:

“ 如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?” 的相关文章

seo原创文章怎么写?创作的技巧有哪些?

seo原创文章怎么写?创作的技巧有哪些?

对于一些企业想要在网络上提升,品牌的名气都会选择网络营销。但是在创建网站之后,也应该要注意对内容的填充。写网站内容时不用太在意内容,长短更注意的则是超链接和关键词的布局,文章内容也许不需要太华丽和高大上,更是不要求长篇大论,但是应该要有理有据清晰明了,那么seo原创文章怎么写?创作的技巧有哪些?一起...

报名SEO培训需要多少钱?

报名SEO培训需要多少钱?

每当在报名某个课程之前,很多人都是喜欢迫不及待的想要知道,学习这项课程之后能给他带来什么样的好处,然后还想打听一下身边都有哪些亲戚朋友在参加。最后还有一个我想应该就是学费的问题了,就比方说我们这个SEO培训课程吧。以前康哥在参加SEO培训之前也是很喜欢这样做的,你们有没有这样的同感呢?自从搜索引擎诞...

网站跳出率高怎么办?

网站跳出率高怎么办?

如果你的网站出现用户跳出率高的情况,那么你就要注意了,这可并不是一个好现象,网站跳出率高就意味着你的网站用户体验感差,我们需要做出一些适当的调整:1.提供高质量的网站内容选择合适的关键词来创造高质量的内容,至少用户进来第一眼会认为这 个网站有一定的价值性 ,让用户的需求得以解决。也可以通过一些社交工...

网络推广培训如何做网络推广网站,seo外链推广?

网络推广培训如何做网络推广网站,seo外链推广?

对于企业网络推广方法网站优化来说,站内的结构优化是很有必要的,如果想要用户有更好的体验,那么就要做到最基本的良好的浏览体验,这样也便于蜘蛛的抓取和收录,而要做到这点就需要网站有稳定的链接结构,那么对于这种内部结构又该如何更好地优化呢? 一、建立三级的层级结构...

睢阳区农技推广网络激发产业兴农xooo

睢阳区农技推广网络激发产业兴农xooo

6月28日,一场大雨过后,睢阳区高辛镇金庄村大豆玉米带状复合种植基地里,尺把高的玉米苗随风摆动,拃把高的大豆苗青翠欲滴。远远望去,一眼望不到头的基地里绿意盎然、生机勃发。多亏了农技区域站站长庞德斗在品种选择、模式选择、播种方法上提供的指导和服务。基地负责人胡群山说,今年,他通过抗旱播种的200亩大豆...

SEO营销是网站推广的机遇和挑战

SEO营销是网站推广的机遇和挑战

随着网络的快速发展,SEO逐渐被越来越多的人所认识。无论是企业还是个人,在网络上推广业务时都会用到SEO技术和SEO营销。尤其是SEO营销,随着信息时代的到来,这不仅是企业发展的机遇,也是挑战。越来越多的企业开始意识到SEO的重要性,几乎每个企业都需要三个SEO人员(技术、策划、营销)来开发和推广自...