优化 hadoop 集群上的 nutch 性能

Optimize nutch performance on hadoop cluster

我正在尝试优化抓取网站的 nutch 性能。现在我在小型 hadoop 集群上测试性能，只有两个节点 32gb RAM，cpu Intel Xeon E3 1245v2 4c/8t。我的 nutch 配置 http://pastebin.com/bBRHpFuq

所以，问题是：获取作业不是最佳的。一些 reduce 任务有 4k 页面用于获取，一些 1kk 页面。例如看截图 https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit 一些 reduce 任务在 10 分钟内完成，但是一个任务工作了 11 个小时并且还在继续工作，所以当我有 24 个 reduce 任务，但只工作一个时，这就像一个瓶颈。

可能有人可以提供有用的建议或链接，我可以在其中阅读有关问题的信息。

这是 Nutch 中的问题，一个站点需要大约 50 000 000，所有其他站点需要 500 000。所以当它通过主机创建队列时，我们看到一个非常大的队列和另一个非常小的队列。

优化 hadoop 集群上的 nutch 性能

Optimize nutch performance on hadoop cluster

performance

hadoop

nutch

cloudera

hadoop-yarn