cloudera impala 可以在 EMR 中使用任务节点吗?

Can cloudera impala make use of task nodes in EMR?

我一直在EMR上试验Impala,在我看来它只利用了集群中的核心节点,而不是任务节点。

我正在使用 EMR 提供的内置 Impala 安装,即 1.2.4。当我的集群中有任务节点时,它们会出现在 Impalad 管理应用程序的 'Known backends' 列表中。但是在 'queries' 页面上,在 'Query locations' 下,它只显示我集群中核心节点的主机名,而不是任务节点。这向我表明查询仅在核心节点上 运行 。可能是因为HDFS只在核心节点上?

谁能证实这一点?如果是这样,有没有办法让它使用它们?

干杯 汤姆

Impala 只会 运行 核心节点(数据节点)上的查询,因为每个 Impala 进程 reads/writes 直接到本地 HDFS 存储。这是 Impala 提高性能的方法之一。