并非所有节点都在集群中使用
Not all nodes are being utilized in cluster
我有一个由 YARN 管理的 30 节点 Hadoop MR2 集群。当前有 10 个 Oozie 作业,每个 运行 一个 Map 程序。我注意到 30 个节点中只有 11 个被实际使用;只有 11 个节点有容器 运行 Map 程序。
我希望每个节点至少有一个容器运行。为什么不是这样呢?是否由于输入拆分,以及基于我的 HDFS 块大小设置,输入数据最好只拆分为 11 个节点?如果是这样,调整块大小以便所有节点都得到利用是否更优化?
根据请求,资源管理器将在集群中分配所需的资源。这些资源将用于容器,运行 您的地图缩减作业。
如果有足够的可用资源,数据节点可以承载多个容器。
不要忘记在 hadoop 中计算是转移到数据而不是相反。 运行宁 mapreduce 作业的数据节点很可能是存储您正在处理的数据。
输入分割,依赖数据块,不直接影响参与计算的主机
认为所有节点都应该 运行 是个坏主意。最好使用大数据是移动尽可能少的数据。
我有一个由 YARN 管理的 30 节点 Hadoop MR2 集群。当前有 10 个 Oozie 作业,每个 运行 一个 Map 程序。我注意到 30 个节点中只有 11 个被实际使用;只有 11 个节点有容器 运行 Map 程序。
我希望每个节点至少有一个容器运行。为什么不是这样呢?是否由于输入拆分,以及基于我的 HDFS 块大小设置,输入数据最好只拆分为 11 个节点?如果是这样,调整块大小以便所有节点都得到利用是否更优化?
根据请求,资源管理器将在集群中分配所需的资源。这些资源将用于容器,运行 您的地图缩减作业。
如果有足够的可用资源,数据节点可以承载多个容器。 不要忘记在 hadoop 中计算是转移到数据而不是相反。 运行宁 mapreduce 作业的数据节点很可能是存储您正在处理的数据。 输入分割,依赖数据块,不直接影响参与计算的主机
认为所有节点都应该 运行 是个坏主意。最好使用大数据是移动尽可能少的数据。