如何在启动 scrapy shell 时禁用 robots.txt?

How to disable robots.txt when you launch scrapy shell?

我在几个网站上使用 Scrapy shell 没有问题,但是当机器人 (robots.txt) 不允许访问网站时我发现了问题。 如何禁用 Scrapy 的机器人检测(忽略存在)? 先感谢您。 我说的不是Scrapy创建的工程,而是Scrapy shell命令:scrapy shell 'www.example.com'

在您的 scrapy 项目的 settings.py 文件中,查找 ROBOTSTXT_OBEY 并将其设置为 False .

如果您 运行 项目目录 scrapy shell 中的 scrapy 将使用项目 settings.py。如果你 运行 在项目之外,scrapy 将使用默认设置。但是,您可以通过 --set 标志覆盖和添加设置。
所以要关闭 ROBOTSTXT_OBEY 设置你可以简单地:

scrapy shell http://whosebug.com --set="ROBOTSTXT_OBEY=False"