Scrapy 蜘蛛在队列中侦听种子 url 以进行爬行?
Scrapy spider which listens on a queue for seed urls to crawl?
有什么方法可以让 Scrapy 蜘蛛在 SQS 队列(或其他队列)上侦听新的种子 URL 来抓取?
在文档中找不到任何示例,所以我想有人可能知道这里。
提前致谢。
编辑:
这start_requests
也许是对的地方吗?
class MySpider(scrapy.Spider):
name = 'example.com'
allowed_domains = ['example.com']
def start_requests(self):
# read requests from queue here?
while True:
url = self._queue.get_url()
yield scrapy.Request(url, self.parse)
重新实现 Spider.start_requests()
是动态生成请求供蜘蛛处理的正确方法,无论这些请求来自何处(动态队列、本地文件等)。
Scrapy tutorial 顺便说一句:)
有什么方法可以让 Scrapy 蜘蛛在 SQS 队列(或其他队列)上侦听新的种子 URL 来抓取?
在文档中找不到任何示例,所以我想有人可能知道这里。
提前致谢。
编辑:
这start_requests
也许是对的地方吗?
class MySpider(scrapy.Spider):
name = 'example.com'
allowed_domains = ['example.com']
def start_requests(self):
# read requests from queue here?
while True:
url = self._queue.get_url()
yield scrapy.Request(url, self.parse)
重新实现 Spider.start_requests()
是动态生成请求供蜘蛛处理的正确方法,无论这些请求来自何处(动态队列、本地文件等)。
Scrapy tutorial 顺便说一句:)