什么是PetalBot?
PetalBot是Petal搜索引擎的自动程序(中文名称:花瓣搜索引擎机器人)。PetalBot的功能是访问PC和移动网站,并建立一个索引数据库,让用户能够在花瓣搜索引擎中搜索您网站的内容,并在华为助手和AI搜索服务中为用户提供内容推荐,这两项服务均由花瓣搜索enigine提供支持。您可以通过分析用户代理字段来识别来自Petal的爬网。
PetalBot抓取的UA特征
PetalBot(电脑)
Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbo
PetalBot(手机)
PetalBot
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
如何阻止PetalBot访问您的网站
PetalBot符合互联网机器人协议。您可以使用robots.txt文件来完全阻止PetalBot访问您的网站,或阻止PetalBot访问您网站上的某些文件。
注意:禁止PetalBot访问您的网站将使网站上的页面和Petal提供的所有搜索引擎服务无法在Petal搜索引擎中搜索。
您可以根据每个产品的不同用户代理设置不同的抓取规则,可以直接阻止PetalBot的抓取。以下机器人可以防止花瓣爬行或有条件允许:
User-agent: PetalBot
Disallow: /
User-agent: PetalBot
Allow: /w/api/
Disallow: /trap/
PetalBot会给网站Web服务器带来了多大的压力?
为了对目标资源有更好的检索结果,PetalBot需要保持一定数量的网站抓取。我们尽量不给网站带来不合理的负担,我们会根据服务器容量、网站质量、网站更新等综合因素进行调整。
如何判断花瓣机器人爬行
您可以验证访问您服务器的网络爬虫是否真的是PetalBot。
要验证PetalBot是否为调用方,请执行以下操作:
1. 使用host命令对日志中的访问IP地址运行反向DNS查找。
2. 验证域名是否aspiegel.com。
3. 使用检索到的域名上的host命令对步骤 1 中检索到的域名运行正向DNS查找。验证它是否与日志中的原始访问IP地址相同。
例:
$host 114.119.128.10
.in-addr.arpa domain name pointer petalbot-114-119-128-10.petalsearch.com
$host petalbot-114-119-128-10.petalsearch.com
petalbot-114-119-128-10.petalsearch.com has address 114.119.128.10
为什么我的网站已经添加到机器人中时仍然可以在Petal中找到robot.txt!
更新搜索引擎索引数据库中的数据需要时间。尽管PetalBot已停止访问您网站上的页面,但可能需要几个月的时间才能清除已在Petal搜索引擎数据库中建立的页面索引信息。此外,请检查您的机器人配置是否正确。