优化 hadoop 集群上的 nutch 性能

Optimize nutch performance on hadoop cluster

我正在尝试优化抓取网站的 nutch 性能。现在我在小型 hadoop 集群上测试性能,只有两个节点 32gb RAM,cpu Intel Xeon E3 1245v2 4c/8t。 我的 nutch 配置 http://pastebin.com/bBRHpFuq

所以,问题是:获取作业不是最佳的。一些 reduce 任务有 4k 页面用于获取,一些 1kk 页面。例如看截图 https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit 一些 reduce 任务在 10 分钟内完成,但是一个任务工作了 11 个小时并且还在继续工作,所以当我有 24 个 reduce 任务,但只工作一个时,这就像一个瓶颈。

可能有人可以提供有用的建议或链接,我可以在其中阅读有关问题的信息。

这是 Nutch 中的问题,一个站点需要大约 50 000 000,所有其他站点需要 500 000。所以当它通过主机创建队列时,我们看到一个非常大的队列和另一个非常小的队列。