使用自己的程序抓取网站时应该使用什么 User-Agent

Question

我用 node.js 制作了爬虫。我想每小时抓取一些网站。

我试图找出我应该使用什么用户代理，但我只得到像 google bot 和 bing bot 这样的结果。我不知道我是否可以使用这些用户代理。

你能告诉我应该使用哪个用户代理吗？

Answer 1

取决于你想要达到的目标。如果您想模仿一个合法的浏览器，只需使用 Chrome 或 Firefox 等常见浏览器的用户代理即可。如果您想告诉站点您是爬虫，只需使用您定义的内容（例如 xyzCrawler）。

Answer 2

既然你做了自己的爬虫，你可以想出你自己的名字。没有关于 UserAgent 可能是什么的规则，但许多使用类似 name/version 的格式，例如：

myAwesomeCrawler/1.0

您还可以添加一个 url，这样网站所有者在您的日志中看到您的机器人时可以找到更多关于您的机器人的信息：

myAwesomeCrawler/1.0 (http://example.org)

但最终取决于您。

当然，这完全取决于您所做的事情是否违法或违反您正在抓取的网站的服务条款。

What User-Agent should I use when crawling sites using own program