impalad 必须在数据节点上 运行 吗?

Must impalad be running on a datanode?

一点背景知识:

我在 Amazon EMR 4.1 上获得了 Impala 2.2 运行(这本身就是一个巨大的头痛) - 具有 1 个主节点、3 个核心节点和 3 个任务节点。

我们在与 AWS 解决方案架构师交谈后了解到,我们可以使用包含持久性 HDFS 存储的主节点和核心节点进行长期 运行 "core cluster"。然后,我们将能够根据需要添加适当数量的任务节点,这些节点将在再次关闭之前快速处理我们提交的作业。

问题:

我们看到的问题是任务节点没有参与大多数查询,例如涉及计算统计信息的查询。

这是 Impala 行为还是 Impala EMR 行为?

Impala有remote reads的概念,那么有没有办法放宽标准,将非datanodes也包含在处理中?

Impala 确实希望在数据节点上,这对于在每个节点本地读取 HDFS 的性能提升至关重要。