当前位置:首页 > SEO网站 > 正文内容

网站禁止垃圾蜘蛛访问抓取教程说明

admin3年前 (2023-02-21)SEO网站376

很多国外商业蜘蛛实际对网站没有什么价值,尤其国内网站的SEO优化运营更是用不上,但是如果不屏蔽就会对网站造成很大的性能宽带消耗,引起SEO优化负面影响,所以可以根据自己的需要去处理。

nginx服务端禁止Scrapy等工具的抓取

if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {

return 403;

}

nginx服务端禁止非GET|HEAD|POST方式的抓取

if ($request_method !~ ^(GET|HEAD|POST)$) {

return 403;

}

nginx服务端禁止指定蜘蛛抓取

if ($http_user_agent ~ "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" )

{

return 444;

}

IIS服务端

ignoreCase="true" />

IIS6请在isapi重写组件中添加规则

#Block spider

RewriteCond %{HTTP_USER_AGENT} (MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$) [NC]

RewriteRule !(^/robots.txt$) - [F]

apache服务端

RewriteEngine On

#Block spider

RewriteCond %{HTTP_USER_AGENT} "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" [NC]

RewriteRule !(^robots\.txt$) - [F]

通过robots.txt禁止

对于遵循robots协议的蜘蛛,可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了。常见的一些屏蔽恶意蜘蛛代码如下,也可以根据自己需要进行增减。

User-agent: SemrushBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: BLEXBot

Disallow: /

常见的网络恶意垃圾爬虫蜘蛛

上面说的搜索引擎爬虫能给网站带来流量,也有许多爬虫除了增加服务器负担,对网站没任何好处,应该屏蔽掉。

1、MJ12Bot

MJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。

2、AhrefsBot

AhrefsBot 是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。

3、SEMrushBot

SEMrushBot 也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot 是 Moz.com 的网页爬虫,抓取数据用来支持 Moz tools 等工具。

5、MauiBot

MauiBot 不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot (crawler.feedback+wc@gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。

SEO结束语:以上来源收集汇总,请根据自己实际需要进行准确设置。

警惕垃圾蜘蛛影响网站SEO收录排名

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://www.laosuseo.com/?id=7339

分享给朋友:

“网站禁止垃圾蜘蛛访问抓取教程说明” 的相关文章

在SEO优化平台,常用的4种SEO手段

在SEO优化平台,常用的4种SEO手段

在SEO日常工作中,我们经常会选择与SEO优化平台打交道,由于初创企业的时间与精力有限,经常性的会选择将自身的业务,托管给第三方平台。因此,在选择SEO优化平台的时候,我们需要尽可能的掌握与之相关的基础知识,以及对方做项目的相关SEO手段。根据以往的SEO外包的经历,Two Or Ten将通过如下内...

SEO具体是怎么操作的

SEO具体是怎么操作的

原标题:SEO具体是怎么操作的SEO具体怎么优化,提高网站排名 (SEO) 的五种方法遵循这些建议来改进您的搜索引擎优化 (SEO),并观察您的网站排名上升到搜索引擎结果的顶部。1.发布相关的权威内容优质、权威的内容是您搜索引擎排名的第一驱动力,没有什么可以替代优质内容——在进行SEO 营销时尤其如...

站内优化中标签有什么作用标签的选取—布局—使用注意事项

站内优化中标签有什么作用标签的选取—布局—使用注意事项

做为一个SEOer,网站站内优化是非常重要的一个环节,当一个网站的页面数量达到一定量级的时候,要坚持把网站做的扁平化就显得尤为困难,很多时候页面的堆积只能通过分类、分频道以及分页来保持页面能有一个单一的入口被蜘蛛爬取到,但是由于站内资源的限制,尤其对于个人站长,想尽各种办法增加每一个页面在站内体系的...

如何写出一篇好的网站标题呢?

如何写出一篇好的网站标题呢?

网站标题的重要性毋庸置疑,好的网站标题不仅能够吸引用户的眼球,还能让用户对网站产生兴趣,从而提高网站的点击率。那么如何写出一篇好的网站标题呢?接下来就让我来为您详细分析。网站标题的作用首先,我们需要明确一个问题:网站标题的作用是什么?网站标题是网站的“名片”,是网站最先展现给用户的内容。用户在打开网...

网站标签是什么?网站标签怎么设置SEO效果更好?

网站标签是什么?网站标签怎么设置SEO效果更好?

这段时间,有些小伙伴跟我们反映过,在做SEO优化的过程中,把一些小细节给优化好,会带来意想不到的效果。看来很多人也发现了做SEO优化,也是有很多小技巧的。其实,网站优化也不仅是优化网站内容和标题,网站的标签也非常重要。网站标签是参与网站收录和排名的基础,在一定程度上也会影响SEO优化的周期和效果。正...

为什么要给图片加ALT属性?

为什么要给图片加ALT属性?

网站图片中添加ALT对seo有什么好处呢?这是很多初学seo的朋友们都需要询问的问题,用图片进行SEO的方法就是在这些图片的img标签中使用alt标签,下面为大家详细介绍下使用百度统计的seo建议其中一条图片ALT信息“存在没有alt信息的img标签”扣分较多。网站图片中添加ALT对seo有什么好处...