Scrapy 和 robots.txt 的尊重

Question

我昨天发现 Scrapy 默认尊重 robots.txt 文件 (ROBOTSTXT_OBEY = True)。

如果我用 scrapy shell url 请求 URL，如果我有回应，是否意味着 url 不受 robots.txt 保护？

Answer 1

根据文档，只有当您使用 scrapy startproject 命令创建项目时才默认启用它，否则应该默认为 False.

回答您的问题，是的，scrapy shell 命令确实遵循 settings.py 中定义的 robots.txt 配置。如果 ROBOTSTXT_OBEY = True，尝试在受保护的 URL 上使用 scrapy shell 命令将生成响应 None。

您也可以通过命令行通过 robots.txt 设置来测试它：

scrapy shell https://www.netflix.com --set="ROBOTSTXT_OBEY=True"

Scrapy and respect of robots.txt