当前位置:首页 > SEO网站 > 正文内容

网站禁止垃圾蜘蛛访问抓取教程说明

admin3年前 (2023-02-21)SEO网站330

很多国外商业蜘蛛实际对网站没有什么价值,尤其国内网站的SEO优化运营更是用不上,但是如果不屏蔽就会对网站造成很大的性能宽带消耗,引起SEO优化负面影响,所以可以根据自己的需要去处理。

nginx服务端禁止Scrapy等工具的抓取

if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {

return 403;

}

nginx服务端禁止非GET|HEAD|POST方式的抓取

if ($request_method !~ ^(GET|HEAD|POST)$) {

return 403;

}

nginx服务端禁止指定蜘蛛抓取

if ($http_user_agent ~ "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" )

{

return 444;

}

IIS服务端

ignoreCase="true" />

IIS6请在isapi重写组件中添加规则

#Block spider

RewriteCond %{HTTP_USER_AGENT} (MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$) [NC]

RewriteRule !(^/robots.txt$) - [F]

apache服务端

RewriteEngine On

#Block spider

RewriteCond %{HTTP_USER_AGENT} "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" [NC]

RewriteRule !(^robots\.txt$) - [F]

通过robots.txt禁止

对于遵循robots协议的蜘蛛,可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了。常见的一些屏蔽恶意蜘蛛代码如下,也可以根据自己需要进行增减。

User-agent: SemrushBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: BLEXBot

Disallow: /

常见的网络恶意垃圾爬虫蜘蛛

上面说的搜索引擎爬虫能给网站带来流量,也有许多爬虫除了增加服务器负担,对网站没任何好处,应该屏蔽掉。

1、MJ12Bot

MJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。

2、AhrefsBot

AhrefsBot 是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。

3、SEMrushBot

SEMrushBot 也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot 是 Moz.com 的网页爬虫,抓取数据用来支持 Moz tools 等工具。

5、MauiBot

MauiBot 不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot (crawler.feedback+wc@gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。

SEO结束语:以上来源收集汇总,请根据自己实际需要进行准确设置。

警惕垃圾蜘蛛影响网站SEO收录排名

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://www.laosuseo.com/?id=7339

分享给朋友:

“网站禁止垃圾蜘蛛访问抓取教程说明” 的相关文章

标题标签SEO的8条原则

标题标签SEO的8条原则

以下8条原则是构建标题的最佳方法。但是请记住,任何标题都必须与页面内容直接对应。 1、包括要优化的关键词 这是至关重要的,所以就不多说了。顾名思义,如果你想让你的文章被用户搜索什么关键词看到,就要把它写在标题中。 2、关键词放在标题最...

seo网站优化中有哪些html标签需要优化?

seo网站优化中有哪些html标签需要优化?

作为一个网站搜索引擎优化者,你必须了解一些网站代码,这是网站优化的基本要素之一。那seo网站优化中有哪些html标签需要优化?seo网站优化中有哪些html标签需要优化?一、h标签h标签和搜索引擎的关系很友好,能告诉我搜索引擎这个页面的主题。 适当地在页面上添加h标签有助于优化SEO。但是,需要注意...

网站优化排名名的机制是什么?搜索引擎是如何评估一个网站的内容质量

网站优化排名名的机制是什么?搜索引擎是如何评估一个网站的内容质量

搜索引擎优化(SEO)排名的机制通常是由搜索引擎算法控制的。搜索引擎会根据网站的内容、结构、链接和其他因素来决定排名顺序,其中一些重要的因素包括:内容质量:搜索引擎会评估网站的内容质量,包括内容的相关性、质量、原创性和实用性。搜索引擎倾向于将高质量、有用的内容排名较高。关键词使用:搜索引擎会评估网站...

企业网站做好网站运营的好处以及如何做好网站运营?

企业网站做好网站运营的好处以及如何做好网站运营?

现在,随着互联网的发展,几乎每一家企业都有自己的网站。然而仅仅搭建一个网站是远远不够的,若想在互联网中脱颖而出,还要对企业网站进行相应的运营推广工作。尤其是在竞争更为激烈的互联网行业,企业网站的运营一直以来都是一个不容小觑的任务。只有充分发挥了网站的优势,做到良好的运营,才能让企业更具竞争力。今天就...

在SEO优化平台,常用的4种SEO手段

在SEO优化平台,常用的4种SEO手段

在SEO日常工作中,我们经常会选择与SEO优化平台打交道,由于初创企业的时间与精力有限,经常性的会选择将自身的业务,托管给第三方平台。因此,在选择SEO优化平台的时候,我们需要尽可能的掌握与之相关的基础知识,以及对方做项目的相关SEO手段。根据以往的SEO外包的经历,Two Or Ten将通过如下内...

seo优化一般包括哪些方面

seo优化一般包括哪些方面

原标题:seo优化一般包括哪些方面搜索引擎优化 (SEO) 是网站优化的多方面之一。即使我们擅长使用SEO优化工具获取收录,如果不对我们的网站进行网站优化,也会让我们在后续的关键词排名中很难获得更好的提升,网站优化不仅包括网站内的SEO,还有服务器、域名、CMS架构等因素的影响。网站优化当然最不能缺...