Impala有自己的执行引擎还是运行在Hadoop生态系统的MapR上?

Impala has his own execution engine or it works on MapR in Hadoop eco system?

我从来没有机会参与 Impala。我刚刚开始阅读有关 Impala 的内容。但是我有一个基本问题我不清楚Impala。 Impala 有自己的恶魔,所以它也有自己的执行引擎,或者它可以在 MapR 或其他执行引擎上工作。 提前致谢

是 Impala 守护进程在内存中运行 SQL,其中有可用的常驻资源池,由 YARN 或任何其他资源调度程序管理。这可以调整。

MapR 是一个 hadoop 分发包 - 是的,它确实提供 Impala 作为更大包的一部分。

MapReduce是一种以分布式并行方式处理大数据集的设计模式。

Impala 是一个在 Apache Hadoop 上运行的开源大规模并行处理 (MPP) 查询引擎。 Impala 更像是一个像 Hive 一样的仓库,有自己的 pro-cons 而不是 Hive.

Imapalamapreduce 之间的主要区别是:

  • Impala不使用mapreduce。它单独运行 Impala daemon 拆分查询并并行运行它们并在最后合并结果集。

  • Impala 执行大部分操作 in-memory 并且磁盘 I/O 是有限的。

  • Impala 使用 hdfs 进行存储,这带来了可靠性和效率。它缓存 in-memory 尽可能多的查询结果。

  • Impala 支持新的文件格式,如 parquet,这是一种分栏文件格式。因此,如果您使用这种格式,那么在大多数情况下您只访问少数列的查询会更快。