Scrapy 超时和 Twisted.Internet.Error

Scrapy Timeouts and Twisted.Internet.Error

运行 Scrapy with Proxies 但有时爬行 运行s 会在 运行 末尾出现以下错误,导致爬行完成时间延迟10 多秒。我怎样才能做到,如果 Scrapy 运行 在任何时候遇到这些错误,它会在检测到时立即 ignored/passed ,这样它就不会浪费时间拖延整个爬虫?

RETRY_ENABLED = 假 (已设置 settings.py。)

请求中的网址列表。许多代理设置为 https:// 而不是 http,想提一下,尽管在几乎所有情况下 https 都有效,所以我怀疑它是否严格地设置了 https 与 http。

但还是得到:

错误 1:

错误 2:

错误 3:

How can I make it so that if Scrapy runs into these errors at any point, it is ignored/passed completely and immediately when detected

已经是这样了。代理要么在几秒钟后而不是立即导致错误,要么直接超时。

如果您不愿意等待,可以考虑降低 DOWNLOAD_TIMEOUT 设置,但过去需要很长时间但工作的响应可能会开始超时。

更好的方法可能是切换到更好的代理,或考虑使用智能代理(例如 Crawlera)。