详解谷歌(Google)搜索的工作原理
谷歌(Google)搜索是截至目前全球最大的搜索引擎,市场占有率90%以上。
谷歌是一个高自动化的智能搜索引擎,谷歌爬虫会主动抓取您的网站数据,您无需向搜索引擎手动提交。
当然您也可以通过“Google Search Console”页面向谷歌提交网站地图,加快收录速度。
主动提交是为了让谷歌蜘蛛尽快抓取到网页数据,不代表网站一定被收录,如果页面不符合谷歌SEO规则(页面质量低下、违规信息等因素),大概率会不收录。
请注意:谷歌抓取网页数据和展示网站排名的服务是免费的,倘若有人以此来向您收取费用,那么他绝对是个骗子。
另外您还需明白一点,谷歌SEO规则是相当复杂且随时变化的,没有人敢保证您的网站一定会在谷歌获得排名。
谷歌(Google)搜索的工作原理如下,大致分为三个步骤。
谷歌蜘蛛发现并抓取您的网页数据(文本、图片、视频)
谷歌对抓取到的数据进行分析,决定是否纳入数据库。
谷歌针对用户搜索展示相对应的网页数据
第一步、谷歌蜘蛛抓取网页数据
谷歌派出谷歌蜘蛛(Googlebot)搜寻互联网中的页面,这个过程是持续性的。只要您的网站发布了新的内容,谷歌通常会在几个小时内发现这些页面。如果您的网站刚刚成立,网站可能需要一个星期左右才会被谷歌发现。
当谷歌发现了您的网站,谷歌蜘蛛会顺着页面中的链接继续爬行,抓取网站中的其他页面。例如页面中的分类目录链接,面包屑导航链接,上下文链接,相关文章链接,网站地图(创建网站地图非常重要)中的链接。
谷歌会针对每个网站采取不同的抓取频率和规则(根据网站的服务器与更新策略等因素),完全不用担心谷歌蜘蛛的频繁抓取而拖垮您的网站。在一些特殊情况下,谷歌可能无法抓取到您的网站页面,例如:
网站使用robots.txt编写规则屏蔽了谷歌蜘蛛
网站使用了不稳定的服务器(页面无法正常打开)
您的网站产出了不符合谷歌规则的相关内容(垃圾信息、违规内容等)
第二步、将发现的网页编入谷歌数据库
谷歌蜘蛛发现网页后,会对网页进行分析处理,根据tilte标签和alt属性等条件识别页面中的:文字、图片、视频等。
谷歌会对页面数据进一步解析,如果网页内容与互联网中已有的内容重复或高度相似(伪原创和采集内容),谷歌有可能拒绝编入其数据库中。
以下内容可能不会被纳入谷歌数据中:
无法为用户创造价值的低质量内容
采集自其他网站的内容或伪原创内容
robots.txt编写错误(屏蔽了谷歌蜘蛛)
网站架构设计不合理导致谷歌蜘蛛抓取困难
第三步、将符合用户搜索意图的页面展示在搜索结果中
用户进行搜索时,谷歌会根据用户的搜索意图匹配高质量的相关内容展示在搜索结果中,相关性包括诸多方面,例如:用户所在的地理位置,用户输入信息中是否包括位置信息,页面内容与页面标题的相关性,页面语言(英语或汉语)等。
谷歌有着一套完善的规则,把高匹配度的页面展示给用户。例如:
用户在“广州”搜索“广告公司”时,谷歌会把地址位置位于广州的页面展示在搜索结果中。用户搜索“广东广告公司”时,谷歌同样会把地理位置在广州的页面展示在搜索结果中。
用户搜索“山茶花”时,谷歌会把山茶花的图片展示在搜索结果中。
用户搜索“抬杠粗排骨怎么做”时,谷歌会把相关视频展示在搜索结果中。
注:有些页面已经编入了谷歌索引库中,但这些页面没有展示在搜索结果中。这可能是因为:
页面内容与用户搜索意图不匹配
页面质量低(垃圾内容与采集内容)
网站页面禁止了谷歌蜘蛛抓取
此篇文章讲述了谷歌抓取并呈现页面数据的大概流程,根据谷歌SEO规则的更新,文章后续会进行补充完善。