每小时爬取1M的资源

Resources to crawl 1M per hour

我正在寻找有关我应该将多少资源（主要是 CPU 和 RAM）专用于我的爬虫以便能够每小时顺利爬取 ~100 万页的指示。我运行单个节点上的所有内容并使用 ES 来实现持久性。我在 1 M 域内进行递归爬网。谢谢！

一般FAQ，速度很大程度上取决于主机名的多样性和礼貌设置。在您的情况下，不缺少主机名，因此这不是限制。

使用 ES 作为后端，瓶颈往往是喷口中的查询时间以及段的合并。随着您的爬网规模越来越大，这些需要的时间越来越长。您可以通过多种方式优化事物，例如对 AggregationSpouts 使用采样。为 ES 提供大量 RAM 会有所帮助，使用 SSD 也会有所帮助。您可以调整各种参数，但老实说，以 ES 作为后端，在单个服务器上每小时 1M 听起来非常雄心勃勃。您抓取的速度越快，发现的网址越多，您的索引就越大。

您打算完全重新访问 URL 还是一次性抓取？

能否通过电子邮件与我们取得联系？我想讨论这个，因为它与我目前正在做的一些工作有关（而且我一直很好奇人们用 SC 做什么）。谢谢

每小时爬取1M的资源

Resources to crawl 1M per hour

web-crawler

stormcrawler