如何在启动 scrapy shell 时禁用 robots.txt?
How to disable robots.txt when you launch scrapy shell?
我在几个网站上使用 Scrapy shell 没有问题,但是当机器人 (robots.txt) 不允许访问网站时我发现了问题。
如何禁用 Scrapy 的机器人检测(忽略存在)?
先感谢您。
我说的不是Scrapy创建的工程,而是Scrapy shell命令:scrapy shell 'www.example.com'
在您的 scrapy 项目的 settings.py 文件中,查找 ROBOTSTXT_OBEY 并将其设置为 False .
如果您 运行 项目目录 scrapy shell
中的 scrapy 将使用项目 settings.py
。如果你 运行 在项目之外,scrapy 将使用默认设置。但是,您可以通过 --set
标志覆盖和添加设置。
所以要关闭 ROBOTSTXT_OBEY
设置你可以简单地:
scrapy shell http://whosebug.com --set="ROBOTSTXT_OBEY=False"
我在几个网站上使用 Scrapy shell 没有问题,但是当机器人 (robots.txt) 不允许访问网站时我发现了问题。
如何禁用 Scrapy 的机器人检测(忽略存在)?
先感谢您。
我说的不是Scrapy创建的工程,而是Scrapy shell命令:scrapy shell 'www.example.com'
在您的 scrapy 项目的 settings.py 文件中,查找 ROBOTSTXT_OBEY 并将其设置为 False .
如果您 运行 项目目录 scrapy shell
中的 scrapy 将使用项目 settings.py
。如果你 运行 在项目之外,scrapy 将使用默认设置。但是,您可以通过 --set
标志覆盖和添加设置。
所以要关闭 ROBOTSTXT_OBEY
设置你可以简单地:
scrapy shell http://whosebug.com --set="ROBOTSTXT_OBEY=False"