Scrapy部署算法

Scrapy Deployment Algorithm

请帮我理清头绪:

我想为我在 EC2 上的项目设置爬网。我正在使用带有 MySQL 的 Scrapy 来获取结果。另外,我想为计划的爬行(例如每天)实施 cron;所以我的理解是:我用所有必要的包(python、mysql、scrapy 等)设置了 EC2;然后我创建我的蜘蛛,我测试它们;当他们工作时,我设置了 cron,以便在没有我的情况下进行爬网。

我说得对还是我可能遗漏了什么?我需要使用 Scrapyd 还是只是一个选项?

您需要一个可以 运行 Scrapy 的程序。您可以使用 scrapy 命令或编写自己的脚本,也可以使用 scrapyd。我个人喜欢 scrapyd,因为它让事情变得更简单(包括一个不错的 API)。