当前位置:首页 > SEO培训 > 正文内容

如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?

admin3年前 (2022-07-29)SEO培训727

为了你的网站可以被别人搜寻到,搜寻引擎爬虫,有时也称为搜寻机器人(bots)或是搜寻蜘蛛(spiders),会爬取你的网站,搜寻有变动的内容并且重新更新搜寻引擎的搜寻检索。


如何用robts.txt 这个档桉去控制搜寻蜘蛛

网站站长可以使用robots.txt这个文件,来指导搜寻蜘蛛应该如何爬取这个网站,当搜寻引擎爬取网站时,会先读取robots.tx 文件,并且依照规则爬取网站。


※ robots.txt 规则虽然是重要的,但是搜寻机器人不一定会遵守 robot.txt 规则,它只是一个执行方针。

※ 以Google而言,要设定Crawl-delay,是必须在Google管理工具裡设定。

※ 对于浮滥爬取你的网站的劣质搜寻蜘蛛,应该研究如何凭藉.htaccess裡的User-agent去阻挡不好的搜寻蜘蛛。


编辑与创建robots.txt 文件

Robots.txt 文件是必须放在网站根目录里,如果你的网址是******.com 是可以读取到的。


网址位置:


http://******.com/robots.txt


伺服器位置:


/home/userna5/public_html/robots.txt


如果没有这个档桉的话,你可以使用纯文件档桉建立一个新的robots.txt文件。


搜寻引擎的使用者代理

以搜寻引擎蜘蛛的User-agent来说,使用robots.txt文件来控制,是最普通的规范方式。


当搜寻蜘蛛爬取网站时,他们会以使用者代理User-agent来识别、以下提供些参考范例


前三名美国最常发现的搜寻引擎使用者代理:

Googlebot

Yahoo! Slurp

bingbot


最常被阻挡的搜寻引擎使用者代理:

AhrefsBot

Baiduspider

Ezooms

MJ12bot

YandexBot


搜寻引擎蜘蛛是会以robots.txt文件规则来抓取网站

robots.txt 文件有许多的规则,可以控制搜寻蜘蛛如何爬取你得网站。


User-agent:可以具体指定哪一个User-agent是适用的,如*是万用搭配于全部的User-agent。


Disallow:设定档桉或是资料夹,不允许被搜寻蜘蛛爬取。


设定全部搜寻引擎延迟爬取

如果你的网站有1000页,搜寻蜘蛛可能在几分钟内检索全部的网站,然而这有可能导致系统资源使用过度,在短时间内让全部的网页超过负荷,导致网页无法浏览。


延迟30秒的时间,将允许搜寻蜘蛛在8.3小时内检索1000张网页。


延迟500秒的时间,将允许搜寻蜘蛛在5.8天内检索1000张网页。


你也可以设定Crawl-delay:所有的搜寻蜘蛛立即搜寻。


User-agent: *

Crawl-delay: 30


允许搜寻蜘蛛爬取全部网站

在预设空白情况下,搜寻引擎蜘蛛还是会爬取你的网站,不过你还是可以指定它是允许的。


User-agent: *

Disallow:


不允许搜寻蜘蛛爬取全部网站

User-agent: *

Disallow: /


不允许搜寻蜘蛛爬取特定一个网站

你可以运用这些规则,不允许特定的搜寻引擎蜘蛛爬取你的网站。


User-agent: Baiduspider

Disallow: /


不允许全部搜寻蜘蛛爬取特定的档桉

如果有些档桉如contactus.htm, index.htm, 或是store.htm我们不想要搜寻蜘蛛爬取,我可以使用:


User-agent: *

Disallow: /contactus.htm

Disallow: /index.htm

Disallow: /store.htm


除了指定的以外,不允许全部搜寻蜘蛛爬取

如果我们只想让Googlebot爬取我们的/private/目录,但是不允许其他搜寻蜘蛛爬取,我们可以这样使用:


User-agent: *

Disallow: /

User-agent: Googlebot

Disallow: /private/


当Googlebot读取我的robots.txt文件时,会去理解文件内容,不会禁止全部目录的爬取。

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://www.laosuseo.com/?id=3696

标签: robots.txt
分享给朋友:

“ 如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?” 的相关文章

SEO专家浅谈:教育培训网站如何进行网站优化才能有效网上获客

SEO专家浅谈:教育培训网站如何进行网站优化才能有效网上获客

最近,有好些做教育这块的客户咨询这样类似的问题:如何进行教育网站优化才能有效获客?现结合互动网多年的教育网站优化经验,给大家简单分享一下想法:1、首先是优化品牌形象。教育行业的网站,品牌形象是非常重要的,如果当客户进入到你的网站时,发现网站有与教育行业不符合的要素出现,比如说不雅人物形象,这可能会直...

关键字布局怎么做?超完整SEO关键字搜索与分析研究攻略!

关键字布局怎么做?超完整SEO关键字搜索与分析研究攻略!

关键字布局这个东西在网路上很少人讨论,但是却很重要。当你想针对某个领域的主题进行写作的时候,你必须尝试撰写一份初步的关键字布局图,懂得针对你所处的产业进行关键字布局,你才能有策略地进行SEO 写作,少了关键字布局,你会变得乱枪打鸟、打法凌乱,进行关键字攻略的时候没有步骤、失去节奏。一但你能制作出一份...

SEO策略的含义:经验、前瞻、创新和技巧

SEO策略的含义:经验、前瞻、创新和技巧

SEO战略是什么?SEO策略是在实践、总结、思考、创新和整合各种资源以达到SEO效果的技巧。不像网站SEO优化技术,它强调思考、创新和运用技巧。SEO策略有一些重要的特性,可以帮助你更好地理解SEO战略的含义:经验、前瞻、创新和技巧。当提到SEO时,有些人会感到很困难,不会做网站,不会写代码,怎么学...

百度SEO培训课程,为什么关键词研究是第一重要的课程?

百度SEO培训课程,为什么关键词研究是第一重要的课程?

如果你有过SEO学习的经历,甚至参加一些SEO培训课程,我们总是会发现这些SEO培训班中,制定的相关课程,总是有一处是惊人的相似。 特别是百度SEO培训课程,我们总能看到关键词研究是一个重要的小节,其实理由非常简单:...

有必要参加SEO培训吗?自学可以吗?

有必要参加SEO培训吗?自学可以吗?

SEO人员在职场上总会碰上一些难解的问题,很多人也不懂得自己学习SEO该往哪些方向发展。每个SEO人员都希望能够通过SEO这个技术让自己的收入越来越高,人生道路能越走越宽,那么到底应该怎样做,其中又有哪些需要注意的,本篇将用一问一答的形式,讲解一些SEO人在职场常见的问题。1、做SEO一定要有利他之...

短视频如何引流与推广?抖音seo优化的运营思路

短视频如何引流与推广?抖音seo优化的运营思路

原标题:短视频如何引流与推广?抖音seo优化的运营思路 大家好,我是智乎小豹,专注于互联网引流干货运营分享! 短视频已经成为了当下最火的内容形式,很多网红都通过制作和发布视频来获取粉丝。那么如果你也想让你的短视频变得火起来,该如何做呢? 一般来说,要想成功...