impalad 必须在数据节点上运行吗？

Must impalad be running on a datanode?

一点背景知识：

我在 Amazon EMR 4.1 上获得了 Impala 2.2 运行（这本身就是一个巨大的头痛） - 具有 1 个主节点、3 个核心节点和 3 个任务节点。

我们在与 AWS 解决方案架构师交谈后了解到，我们可以使用包含持久性 HDFS 存储的主节点和核心节点进行长期运行 "core cluster"。然后，我们将能够根据需要添加适当数量的任务节点，这些节点将在再次关闭之前快速处理我们提交的作业。

问题：

我们看到的问题是任务节点没有参与大多数查询，例如涉及计算统计信息的查询。

这是 Impala 行为还是 Impala EMR 行为？

Impala有remote reads的概念，那么有没有办法放宽标准，将非datanodes也包含在处理中？

Impala 确实希望在数据节点上，这对于在每个节点本地读取 HDFS 的性能提升至关重要。