用于并行解析的 scrapyd 或 CrawlerProcess

scrapyd or CrawlerProcess for parralel parsing

我需要在同一台服务器上并行 运行 大量蜘蛛(~20-50)。 我的一些 spider 已经运行了两天以上,有时我需要 运行 一个新的,然后才能完成所有进程。 据我了解,这种可能性提供了 scrapyd(单独的守护进程)和 CrawlerProcess(class of scrapy)。 或者芹菜更适合这里? (我想使用 python3) 每种方法的特殊之处是什么?哪种方法更适合我的项目?

https://github.com/scrapy/scrapyd/issues/143 中所述,scrpyd 将支持 python3。不管怎样,芹菜都是不错的选择。