有没有办法用干净的 jobdir 开始 scrapy 爬行?
Is there a way to start a scrpy crwal with clean jobdir?
暂停爬网后,我想重新启动爬网并启用 JOBDIR 选项以保留新爬网的状态,但我确实想擦除先前爬网的状态,因为数据已过时。
scrapy 没有start/stop/resume,管理抓取的唯一命令是
scrapy crawl somespider -s JOBDIR=crawls/somespider-1
如果您打算开始 新 爬网,而不是恢复 先前暂停的 爬网,您必须删除旧目录,或指定新目录:
scrapy crawl somespider -s JOBDIR=crawls/somespider-2
scrapy crawl somespider -s JOBDIR=crawls/somespider-3
...
启动和恢复使用相同的命令,但基于目录名称。因此,如果您指定一个新目录,它将被视为 "start"。如果您指定一个现有目录,它将被视为 "resume"。
您可以 stop/pause 按 Ctrl+C
进行抓取。参考文档:https://docs.scrapy.org/en/latest/topics/jobs.html#how-to-use-it
暂停爬网后,我想重新启动爬网并启用 JOBDIR 选项以保留新爬网的状态,但我确实想擦除先前爬网的状态,因为数据已过时。
scrapy 没有start/stop/resume,管理抓取的唯一命令是
scrapy crawl somespider -s JOBDIR=crawls/somespider-1
如果您打算开始 新 爬网,而不是恢复 先前暂停的 爬网,您必须删除旧目录,或指定新目录:
scrapy crawl somespider -s JOBDIR=crawls/somespider-2
scrapy crawl somespider -s JOBDIR=crawls/somespider-3
...
启动和恢复使用相同的命令,但基于目录名称。因此,如果您指定一个新目录,它将被视为 "start"。如果您指定一个现有目录,它将被视为 "resume"。
您可以 stop/pause 按 Ctrl+C
进行抓取。参考文档:https://docs.scrapy.org/en/latest/topics/jobs.html#how-to-use-it