是否可以使用 Googlebot 的用户代理令牌而不是完整的用户代理字符串来检测它?
Is it possible to use Googlebot's user agent token to detect it rather than the full user agent string?
发件人:https://support.google.com/webmasters/answer/1061943?hl=en
以下table显示了Google的各种产品和服务使用的爬虫:
User agent token 用于 robots.txt 中的 User-agent: 行,以便在为您的站点编写抓取规则时匹配抓取工具类型.有些爬虫有不止一个token,如table;您只需匹配一个爬虫令牌即可应用规则。此列表并不完整,但涵盖了您可能会在您的网站上看到的大部分抓取工具。
完整的用户代理字符串是爬虫的完整描述,出现在请求和您的网络日志中。
问题
从上面的摘录中我们可以看到,可以使用 robots.txt 文件中的 User agent token 来匹配并因此检测到爬虫。
我想在我的服务器上使用 用户代理令牌 来检测 Google 机器人爬虫请求。所以我不必硬编码完整的用户代理字符串。
但是 request headers
中是否存在用户代理令牌?是否可以使用它或者我应该坚持使用 完整的用户代理字符串 ?
如果比较 "User agent token" 和 "Full user agent string" 列的值,您可以看到 "product token" 也可用于 "Full user agent string"。所以你可以检查 "Full user agent string" 是否包含 "User agent token".
"Full user agent string" 上的数字将来会比 "produkt token" 上的数字更频繁地变化。
发件人:https://support.google.com/webmasters/answer/1061943?hl=en
以下table显示了Google的各种产品和服务使用的爬虫:
User agent token 用于 robots.txt 中的 User-agent: 行,以便在为您的站点编写抓取规则时匹配抓取工具类型.有些爬虫有不止一个token,如table;您只需匹配一个爬虫令牌即可应用规则。此列表并不完整,但涵盖了您可能会在您的网站上看到的大部分抓取工具。
完整的用户代理字符串是爬虫的完整描述,出现在请求和您的网络日志中。
问题
从上面的摘录中我们可以看到,可以使用 robots.txt 文件中的 User agent token 来匹配并因此检测到爬虫。
我想在我的服务器上使用 用户代理令牌 来检测 Google 机器人爬虫请求。所以我不必硬编码完整的用户代理字符串。
但是 request headers
中是否存在用户代理令牌?是否可以使用它或者我应该坚持使用 完整的用户代理字符串 ?
如果比较 "User agent token" 和 "Full user agent string" 列的值,您可以看到 "product token" 也可用于 "Full user agent string"。所以你可以检查 "Full user agent string" 是否包含 "User agent token".
"Full user agent string" 上的数字将来会比 "produkt token" 上的数字更频繁地变化。