Impala有自己的执行引擎还是运行在Hadoop生态系统的MapR上?
Impala has his own execution engine or it works on MapR in Hadoop eco system?
我从来没有机会参与 Impala。我刚刚开始阅读有关 Impala 的内容。但是我有一个基本问题我不清楚Impala。 Impala 有自己的恶魔,所以它也有自己的执行引擎,或者它可以在 MapR 或其他执行引擎上工作。
提前致谢
是 Impala 守护进程在内存中运行 SQL,其中有可用的常驻资源池,由 YARN 或任何其他资源调度程序管理。这可以调整。
MapR 是一个 hadoop 分发包 - 是的,它确实提供 Impala 作为更大包的一部分。
MapReduce
是一种以分布式并行方式处理大数据集的设计模式。
Impala
是一个在 Apache Hadoop 上运行的开源大规模并行处理 (MPP) 查询引擎。 Impala
更像是一个像 Hive
一样的仓库,有自己的 pro-cons 而不是 Hive
.
Imapala
和 mapreduce
之间的主要区别是:
Impala
不使用mapreduce
。它单独运行 Impala daemon
拆分查询并并行运行它们并在最后合并结果集。
Impala
执行大部分操作 in-memory 并且磁盘 I/O 是有限的。
Impala
使用 hdfs
进行存储,这带来了可靠性和效率。它缓存 in-memory 尽可能多的查询结果。
Impala
支持新的文件格式,如 parquet
,这是一种分栏文件格式。因此,如果您使用这种格式,那么在大多数情况下您只访问少数列的查询会更快。
我从来没有机会参与 Impala。我刚刚开始阅读有关 Impala 的内容。但是我有一个基本问题我不清楚Impala。 Impala 有自己的恶魔,所以它也有自己的执行引擎,或者它可以在 MapR 或其他执行引擎上工作。 提前致谢
是 Impala 守护进程在内存中运行 SQL,其中有可用的常驻资源池,由 YARN 或任何其他资源调度程序管理。这可以调整。
MapR 是一个 hadoop 分发包 - 是的,它确实提供 Impala 作为更大包的一部分。
MapReduce
是一种以分布式并行方式处理大数据集的设计模式。
Impala
是一个在 Apache Hadoop 上运行的开源大规模并行处理 (MPP) 查询引擎。 Impala
更像是一个像 Hive
一样的仓库,有自己的 pro-cons 而不是 Hive
.
Imapala
和 mapreduce
之间的主要区别是:
Impala
不使用mapreduce
。它单独运行Impala daemon
拆分查询并并行运行它们并在最后合并结果集。Impala
执行大部分操作 in-memory 并且磁盘 I/O 是有限的。Impala
使用hdfs
进行存储,这带来了可靠性和效率。它缓存 in-memory 尽可能多的查询结果。Impala
支持新的文件格式,如parquet
,这是一种分栏文件格式。因此,如果您使用这种格式,那么在大多数情况下您只访问少数列的查询会更快。