【发布时间】:2020-02-23 12:41:59
【问题描述】:
发件人:https://support.google.com/webmasters/answer/1061943?hl=en
下表显示了 Google 各种产品和服务使用的爬虫:
用户代理令牌用于 robots.txt 中的 User-agent: 行,以便在为您的网站编写抓取规则时匹配抓取工具类型。有的爬虫拥有多个token,如表所示;您只需要匹配一个爬虫令牌即可应用规则。此列表不完整,但涵盖了您可能会在您的网站上看到的大多数爬虫。
完整的用户代理字符串是对爬虫的完整描述,出现在请求和您的网络日志中。
问题
从上面的摘录中我们可以看到,可以使用 robots.txt 文件中的 用户代理令牌 进行匹配,从而检测爬虫。
我想在我的服务器上使用 用户代理令牌 来检测 Googlebot 抓取工具请求。所以我不必硬编码完整的用户代理字符串。
但是request headers 中是否存在用户代理令牌?是否可以使用它还是应该坚持完整的用户代理字符串?
【问题讨论】:
标签: web-crawler httprequest googlebot