Scrapy部署算法

Scrapy Deployment Algorithm

python
mysql
cron
scrapy
scrapyd

请帮我理清头绪：

我想为我在 EC2 上的项目设置爬网。我正在使用带有 MySQL 的 Scrapy 来获取结果。另外，我想为计划的爬行（例如每天）实施 cron；所以我的理解是：我用所有必要的包（python、mysql、scrapy 等）设置了 EC2；然后我创建我的蜘蛛，我测试它们；当他们工作时，我设置了 cron，以便在没有我的情况下进行爬网。

我说得对还是我可能遗漏了什么？我需要使用 Scrapyd 还是只是一个选项？

您需要一个可以运行 Scrapy 的程序。您可以使用 scrapy 命令或编写自己的脚本，也可以使用 scrapyd。我个人喜欢 scrapyd，因为它让事情变得更简单（包括一个不错的 API）。