Scrapy 蜘蛛在队列中侦听种子 url 以进行爬行？

Question

有什么方法可以让 Scrapy 蜘蛛在 SQS 队列（或其他队列）上侦听新的种子 URL 来抓取？

在文档中找不到任何示例，所以我想有人可能知道这里。

提前致谢。

编辑：

这start_requests也许是对的地方吗？

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']

    def start_requests(self):
        # read requests from queue here?
        while True:
            url = self._queue.get_url()
            yield scrapy.Request(url, self.parse)

Answer 1

重新实现 Spider.start_requests() 是动态生成请求供蜘蛛处理的正确方法，无论这些请求来自何处（动态队列、本地文件等）。

Scrapy tutorial 顺便说一句:)

Scrapy 蜘蛛在队列中侦听种子 url 以进行爬行？

Scrapy spider which listens on a queue for seed urls to crawl?

scrapy

scrapy-spider