EMR 集群中的映射器分布

Mappers distribution in an EMR cluster

amazon-web-services
emr

EMR 在分配映射器时如何确定核心节点和任务节点的优先级？这有关系吗？

示例：示例作业需要 5 个映射器。核心节点和任务节点独立可以处理5个映射器。核心节点会得到所有 5 个映射器还是任务节点会得到所有 5 个映射器？还是混合搭配（基于专有 EMR 算法）？

EMR 目前没有做任何关于在 CORE 或 TASK 实例上放置映射器的特殊操作。但是，Hadoop 默认会尝试遵守数据局部性，这意味着如果您的映射器正在从 HDFS 读取，则映射器可能更可能运行在 CORE 实例（运行 HDFS）上而不是在 TASK 上实例（不运行 HDFS——这是目前 CORE 和 TASK 实例之间的唯一区别）。

EMR 集群中的映射器分布

Mappers distribution in an EMR cluster

amazon-web-services

emr