当前位置:首页 > SEO培训 > 正文内容

搜索引擎爬虫对网页的三种更新策略

admin3年前 (2022-07-29)SEO培训342

  很长一段时间以来,成都SEO一直围绕着爬虫抓取来讲述相关的信息,今天成都SEO将与大家分享搜索引擎抓取更新的三种策略。

  搜索引擎爬虫的更新主要应用于快照等更新,以及搜索引擎对搜索页面的爬网行为。至于为什么要重新爬网,基本上是因为互联网上有数以万亿计的页面。许多页面在不断变化。这个不断变化的前置因素导致爬网程序不断更新自己的数据,因此它必须重新爬网已爬网的网页。那么搜索引擎爬虫的三大更新策略是什么?

  搜索引擎爬虫历史更新策略

  所谓的历史更新策略是为已被爬网的网页设置重新爬网的时间限制。例如,爬虫对我的SEO博客主页进行爬网,搜索引擎通过爬网获得我的博客主页。爬虫的爬行策略被调整为每3天访问一次我的博客主页。

  这种更新爬行策略告诉我们,网页中的频繁更改将导致蜘蛛频繁爬行。如果你的页面都是静态的。这意味着,如果不重新生成相应的页,则不会对其进行更改。相对而言,你不太擅长这种策略逻辑。因此,URL被设置为伪静态。在网站开放速度可控的前提下,将网页本身设置为动态页面是一个不错的选择。

  搜索引擎爬虫的用户体验更新策略

  所谓用户体验网页更新策略,是指搜索引擎认为网页参与具有一定的搜索量词排名,前三页是用户经常访问的网页。然后我们应该优先对这些页面的更新进行爬网。

  对于3页之后的用户,访问的人很少,以后更新也不错。因此,采用了一种web爬行更新策略。

  这个策略让我们知道,一些核心关键字排名较高的网页更经常被爬虫程序爬网。那么一个值得思考的问题是,网站也会有一些细节页面、聚合页面,甚至文章页面参与错别字的排名。这是否意味着这次的页面爬网量不错?针对这个问题,成都SEO此前通过对访问日志的分析,确定了这个答案。在80%的案例中,确实如此。但是,这些页面的频率远低于主页、频道页面和其他更靠近主页且路径更短的页面。

  但是,我们仍然可以优化详细信息页/文章页,以便在此类页上显示最新内容,并增加爬网程序条目以包含最新内容。

  搜索引擎爬虫抓取网页的抽样聚类策略

  说到这个策略,我们首先从字面上看“抽样,聚类”。抽样是指从网站上抽取一些样本进行观察,聚类就是根据这些样本的观察结果得出一定的结论后应用这种类型。

  我们的网站由不同的类型组成,如列表页面、产品详细信息页面、文章页面、频道页面、聚合页面等。这些都是不同的类型。搜索引擎从中间选取一些样本,观察并获得更新周期,应用于整个类型的方法是抽样聚类的web爬行更新策略。

  我们举个例子。搜索引擎通过从列表页中取样来查找A列表页。通过分析和观察,发现A列表页面可以每2天进行一次爬网。然后有与A列表页类型相同的B、C和D列表页,因为它们具有相同的模板、导航,并且第一页上的模块也指这四个列表页。然后它们是相同类型的,所以B、C、D列表页与A列表页相同,并且它们在2天内被获取。

  好吧,今天的分享就在这里,希望能帮助你,如果有任何问题,请留言给我。

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://www.laosuseo.com/?id=3870

分享给朋友:

“搜索引擎爬虫对网页的三种更新策略” 的相关文章

推广成本低成效持久的营销方法就是SEO优化

推广成本低成效持久的营销方法就是SEO优化

企业网站作为互联网信息传播的载体,在PC端占有很高的地位,承担着企业外部展示的重要作用。无论是企业的产品还是公司的品牌形象,只要是企业在互联网上的任何营销推广活动,都是从企业网站开始的。如今,随着移动互联网的普及,许多企业不再像以前那样重视企业网站。他们专注于微信等移动门户,网站现在已经成为企业的鸡...

网站引流之快速提升网站排名的技巧分享!

网站引流之快速提升网站排名的技巧分享!

今天来给大家聊关于网站引流,一方面如何能够快速去提高你网站排名技巧分享,以及关于网站引流提高网站排名的细节和问题,那像SEO优化目的使你网站能够获得更好排名,并且能通过好排名来增加访问者数量。其实像随着流量增加,我们可以很快去提高你网站排名,那至于如何去引流也是比较重要,那我们先...

策略分析谷歌推广SEO优化的优缺点

策略分析谷歌推广SEO优化的优缺点

原标题:策略分析谷歌推广SEO优化的优缺点 分析谷歌SEO优化的优缺点 提升谷歌排名优化技巧 什么是搜索引擎优化?搜索引擎优化,网站优化,又或者SEO,是指利用各大搜索引擎的不同规则算法,帮助自家网站提升在各大搜索引擎内的自然排名。 编辑...

企业网站哪些因素影响着网站最终排名

企业网站哪些因素影响着网站最终排名

现在随着百度算法的不断调整,一味的去研究搜索引擎,讨好搜索引擎,未必能使自己的企业网站能有一个好的排名。我们要想使自己的网站排名在激烈的竞争中脱颖而出,就必须从自身网站找原因,通过不断解决企业网站在运营中遇到的具体问题,不断提高自身竞争力,最终获得理想的网站排名。今天笔者就跟大家分享一下企业网站哪些...

零基础学习新媒体SEO(上):页内SEO优化的3个技巧

零基础学习新媒体SEO(上):页内SEO优化的3个技巧

对于新媒体运营者来说,文章不仅需要讨好你的用户,更需要讨好搜索引擎,但是后者却被绝大部分的新媒体运营者所忽略! 因此这个信息爆炸的环境中,如何让你的文章在「推送的第一周后还能被持续的阅读」,搜索引擎优化(SEO)也就成了新时代下,所有新媒体运营者必须掌握的一项技能。...

教你如何正确设置使用robots.txt文件

教你如何正确设置使用robots.txt文件

各位站长朋友都知道网站Robots.txt文件,所谓的Robots.txt文件就是网站根目录下面的纯文本文件,是蜘蛛索引网站时第一个要读取的文件,它用于指定spider在您网站上的抓取范围,当网站中有不需要被蜘蛛抓取的内容时,可以使用robots.txt文件加入屏蔽,以免增加网站蜘蛛的抓取难度。所以...