爬取脚本中的 Nutch numSlaves 参数

Nutch numSlaves parameter in crawl script

我正在使用 Nutch 1.9 抓取一组 500 个网站。我运行在 Amazon EMR 集群中发疯并将数据索引到 Solr。

在启动 EMR 集群时，我从 5 个从属节点开始。我在抓取脚本中将 numSlaves 参数指定为 5。我想将我的奴隶增加到 10 以加快进程。我能够将 AWS 控制台中的从节点数量增加到 10 个。nutch 是否会在不重新启动我的爬网或修改爬网脚本的情况下利用所有 10 个从节点？

谢谢

没有。您需要修改爬网脚本并重新启动它。不过没什么大不了的，只需 SSH 到主节点并在 runtime/deploy/bin 中创建一个文件 .STOP。这将在当前迭代完成时停止爬网循环。然后您可以在将值设置为 10 后重新启动脚本。

顺便说一下，您可以通过在 Nutch 邮件列表中询问来更快地得到答案