当前位置:首页 > SEO培训 > 正文内容

如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?

admin4年前 (2022-07-29)SEO培训837

为了你的网站可以被别人搜寻到,搜寻引擎爬虫,有时也称为搜寻机器人(bots)或是搜寻蜘蛛(spiders),会爬取你的网站,搜寻有变动的内容并且重新更新搜寻引擎的搜寻检索。


如何用robts.txt 这个档桉去控制搜寻蜘蛛

网站站长可以使用robots.txt这个文件,来指导搜寻蜘蛛应该如何爬取这个网站,当搜寻引擎爬取网站时,会先读取robots.tx 文件,并且依照规则爬取网站。


※ robots.txt 规则虽然是重要的,但是搜寻机器人不一定会遵守 robot.txt 规则,它只是一个执行方针。

※ 以Google而言,要设定Crawl-delay,是必须在Google管理工具裡设定。

※ 对于浮滥爬取你的网站的劣质搜寻蜘蛛,应该研究如何凭藉.htaccess裡的User-agent去阻挡不好的搜寻蜘蛛。


编辑与创建robots.txt 文件

Robots.txt 文件是必须放在网站根目录里,如果你的网址是******.com 是可以读取到的。


网址位置:


http://******.com/robots.txt


伺服器位置:


/home/userna5/public_html/robots.txt


如果没有这个档桉的话,你可以使用纯文件档桉建立一个新的robots.txt文件。


搜寻引擎的使用者代理

以搜寻引擎蜘蛛的User-agent来说,使用robots.txt文件来控制,是最普通的规范方式。


当搜寻蜘蛛爬取网站时,他们会以使用者代理User-agent来识别、以下提供些参考范例


前三名美国最常发现的搜寻引擎使用者代理:

Googlebot

Yahoo! Slurp

bingbot


最常被阻挡的搜寻引擎使用者代理:

AhrefsBot

Baiduspider

Ezooms

MJ12bot

YandexBot


搜寻引擎蜘蛛是会以robots.txt文件规则来抓取网站

robots.txt 文件有许多的规则,可以控制搜寻蜘蛛如何爬取你得网站。


User-agent:可以具体指定哪一个User-agent是适用的,如*是万用搭配于全部的User-agent。


Disallow:设定档桉或是资料夹,不允许被搜寻蜘蛛爬取。


设定全部搜寻引擎延迟爬取

如果你的网站有1000页,搜寻蜘蛛可能在几分钟内检索全部的网站,然而这有可能导致系统资源使用过度,在短时间内让全部的网页超过负荷,导致网页无法浏览。


延迟30秒的时间,将允许搜寻蜘蛛在8.3小时内检索1000张网页。


延迟500秒的时间,将允许搜寻蜘蛛在5.8天内检索1000张网页。


你也可以设定Crawl-delay:所有的搜寻蜘蛛立即搜寻。


User-agent: *

Crawl-delay: 30


允许搜寻蜘蛛爬取全部网站

在预设空白情况下,搜寻引擎蜘蛛还是会爬取你的网站,不过你还是可以指定它是允许的。


User-agent: *

Disallow:


不允许搜寻蜘蛛爬取全部网站

User-agent: *

Disallow: /


不允许搜寻蜘蛛爬取特定一个网站

你可以运用这些规则,不允许特定的搜寻引擎蜘蛛爬取你的网站。


User-agent: Baiduspider

Disallow: /


不允许全部搜寻蜘蛛爬取特定的档桉

如果有些档桉如contactus.htm, index.htm, 或是store.htm我们不想要搜寻蜘蛛爬取,我可以使用:


User-agent: *

Disallow: /contactus.htm

Disallow: /index.htm

Disallow: /store.htm


除了指定的以外,不允许全部搜寻蜘蛛爬取

如果我们只想让Googlebot爬取我们的/private/目录,但是不允许其他搜寻蜘蛛爬取,我们可以这样使用:


User-agent: *

Disallow: /

User-agent: Googlebot

Disallow: /private/


当Googlebot读取我的robots.txt文件时,会去理解文件内容,不会禁止全部目录的爬取。

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://www.laosuseo.com/?id=3696

标签: robots.txt
分享给朋友:

“ 如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?” 的相关文章

10年SEO培训大神教你如何从小白变SEO高手

10年SEO培训大神教你如何从小白变SEO高手

很多人问我,现在SEO前景怎么样,随着短视频APP、新媒体兴起,SEO真的还有出路吗。我可以很明确的告诉你是有的,基于搜索引擎本身作为一个需求,它会一直存在的事实,并且只要大家还在用搜索,只要涉及到排序,SEO就不可或缺!不是SEO没有前景,只是你的专业能力没达到这个行业的标准。如果你在入门SEO前...

SEO外链是什么,SEO外链怎么发?

SEO外链是什么,SEO外链怎么发?

就目前来说,SEO相关算法的不断更新,使SEO当中的外链的作用越来越小了,但是好的、高质量的外链起到的作用,不仅仅是指引搜索引擎蜘蛛到达你的网站的作用,更重要的作用有直接引来咨询,具体品牌宣传的作用,而SEO的外链的引来蜘蛛的作用相比之下则更弱势一点。说了这么多,可能还是有些朋友不了解seo优化应该...

SEO应该学什么?

SEO应该学什么?

上次网站备案的时候很多人想让我写一下怎么学SEO。所以这篇文章就讲一下怎么来学SEO。我希望这篇文章能广为传播一下,让很多SEOer意识到这些。 先定义一下,这里所说的SEO,是纯粹的指从搜索引擎获得大量优质的流量,把网站要实现的最终效果最大化。有些人把网站运营的内容也纳入到SEO...

seo培训大概多少钱

seo培训大概多少钱

1.seo培训大概多少钱·因素 ①对于网站域名来说,域名存在时间的长短也会影响到SEO优化的价格,如果网站域名是刚申请的,就需要大量的时间来对网站进行优化,所需要的费用也就会高一些。如果是以个老域名,就不需要太多的时间来优化,这样所需要的价格也就会低一些。 ②如果企业想要长...

哪些因素导致网站百度快照不更新或者快照回档

哪些因素导致网站百度快照不更新或者快照回档

网站百度快照不更新或者百度快照回档,我想每个站长朋友都碰到过,这是个常见的问题,出现这样的问题我想大家都心急如焚了吧!出现这种情况那么到底是由什么因素引起的呢?下面笔者根据过往的经验总结了几种常见的因素,希望对大家有所帮助。第一:使用劣质空间,网站运行不稳定空间的稳定性对网站优化尤为重要,而且是最容...

实战讲解提高网站流量的方法

实战讲解提高网站流量的方法

逆冬:分享11月百度最新动态、实战讲解提高网站流量方法!时间进入2020.11月份、眼看又要过年!搜索引擎又有了比较大的变化、本篇给大家分享两个目前发现的百度已经变化(即将)变化的东西以及如何提高网站流量、还是那句话、希望大家防患于未然、而不是亡羊补牢!一、百度新站收录全部强制Https、无论你是不...