有没有办法用干净的 jobdir 开始 scrapy 爬行？

Question

暂停爬网后，我想重新启动爬网并启用 JOBDIR 选项以保留新爬网的状态，但我确实想擦除先前爬网的状态，因为数据已过时。

scrapy 没有start/stop/resume，管理抓取的唯一命令是

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

Answer 1

如果您打算开始新爬网，而不是恢复 先前暂停的 爬网，您必须删除旧目录，或指定新目录：

scrapy crawl somespider -s JOBDIR=crawls/somespider-2
scrapy crawl somespider -s JOBDIR=crawls/somespider-3
...

启动和恢复使用相同的命令，但基于目录名称。因此，如果您指定一个新目录，它将被视为 "start"。如果您指定一个现有目录，它将被视为 "resume"。您可以 stop/pause 按 Ctrl+C 进行抓取。参考文档：https://docs.scrapy.org/en/latest/topics/jobs.html#how-to-use-it

有没有办法用干净的 jobdir 开始 scrapy 爬行？

Is there a way to start a scrpy crwal with clean jobdir?

scrapy

python-2.7

scrapy-spider