并非所有节点都在集群中使用

Not all nodes are being utilized in cluster

我有一个由 YARN 管理的 30 节点 Hadoop MR2 集群。当前有 10 个 Oozie 作业，每个运行一个 Map 程序。我注意到 30 个节点中只有 11 个被实际使用；只有 11 个节点有容器运行 Map 程序。

我希望每个节点至少有一个容器运行。为什么不是这样呢？是否由于输入拆分，以及基于我的 HDFS 块大小设置，输入数据最好只拆分为 11 个节点？如果是这样，调整块大小以便所有节点都得到利用是否更优化？

根据请求，资源管理器将在集群中分配所需的资源。这些资源将用于容器，运行您的地图缩减作业。

如果有足够的可用资源，数据节点可以承载多个容器。 不要忘记在 hadoop 中计算是转移到数据而不是相反。 运行宁 mapreduce 作业的数据节点很可能是存储您正在处理的数据。输入分割，依赖数据块，不直接影响参与计算的主机

认为所有节点都应该运行是个坏主意。最好使用大数据是移动尽可能少的数据。