并非所有节点都在集群中使用

Not all nodes are being utilized in cluster

我有一个由 YARN 管理的 30 节点 Hadoop MR2 集群。当前有 10 个 Oozie 作业,每个 运行 一个 Map 程序。我注意到 30 个节点中只有 11 个被实际使用;只有 11 个节点有容器 运行 Map 程序。

我希望每个节点至少有一个容器运行。为什么不是这样呢?是否由于输入拆分,以及基于我的 HDFS 块大小设置,输入数据最好只拆分为 11 个节点?如果是这样,调整块大小以便所有节点都得到利用是否更优化?

根据请求,资源管理器将在集群中分配所需的资源。这些资源将用于容器,运行 您的地图缩减作业。

如果有足够的可用资源,数据节点可以承载多个容器。 不要忘记在 hadoop 中计算是转移到数据而不是相反。 运行宁 mapreduce 作业的数据节点很可能是存储您正在处理的数据。 输入分割,依赖数据块,不直接影响参与计算的主机

认为所有节点都应该 运行 是个坏主意。最好使用大数据是移动尽可能少的数据。