每小时爬取1M的资源

Resources to crawl 1M per hour

我正在寻找有关我应该将多少资源(主要是 CPU 和 RAM)专用于我的爬虫以便能够每小时顺利爬取 ~100 万页的指示。我 运行 单个节点上的所有内容并使用 ES 来实现持久性。我在 1 M 域内进行递归爬网。 谢谢!

一般FAQ,速度很大程度上取决于主机名的多样性和礼貌设置。在您的情况下,不缺少主机名,因此这不是限制。

使用 ES 作为后端,瓶颈往往是喷口中的查询时间以及段的合并。随着您的爬网规模越来越大,这些需要的时间越来越长。您可以通过多种方式优化事物,例如对 AggregationSpouts 使用采样。为 ES 提供大量 RAM 会有所帮助,使用 SSD 也会有所帮助。您可以调整各种参数,但老实说,以 ES 作为后端,在单个服务器上每小时 1M 听起来非常雄心勃勃。您抓取的速度越快,发现的网址越多,您的索引就越大。

您打算完全重新访问 URL 还是一次性抓取?

能否通过电子邮件与我们取得联系?我想讨论这个,因为它与我目前正在做的一些工作有关(而且我一直很好奇人们用 SC 做什么)。谢谢