EMR 集群中的映射器分布
Mappers distribution in an EMR cluster
EMR 在分配映射器时如何确定核心节点和任务节点的优先级?这有关系吗?
示例:示例作业需要 5 个映射器。核心节点和任务节点独立可以处理5个映射器。核心节点会得到所有 5 个映射器还是任务节点会得到所有 5 个映射器?还是混合搭配(基于专有 EMR 算法)?
EMR 目前没有做任何关于在 CORE 或 TASK 实例上放置映射器的特殊操作。但是,Hadoop 默认会尝试遵守数据局部性,这意味着如果您的映射器正在从 HDFS 读取,则映射器可能更可能 运行 在 CORE 实例(运行 HDFS)上而不是在 TASK 上实例(不 运行 HDFS——这是目前 CORE 和 TASK 实例之间的唯一区别)。
EMR 在分配映射器时如何确定核心节点和任务节点的优先级?这有关系吗?
示例:示例作业需要 5 个映射器。核心节点和任务节点独立可以处理5个映射器。核心节点会得到所有 5 个映射器还是任务节点会得到所有 5 个映射器?还是混合搭配(基于专有 EMR 算法)?
EMR 目前没有做任何关于在 CORE 或 TASK 实例上放置映射器的特殊操作。但是,Hadoop 默认会尝试遵守数据局部性,这意味着如果您的映射器正在从 HDFS 读取,则映射器可能更可能 运行 在 CORE 实例(运行 HDFS)上而不是在 TASK 上实例(不 运行 HDFS——这是目前 CORE 和 TASK 实例之间的唯一区别)。