Apache Drill 的性能

Performance of Apache Drill

是否有比较 Stinger 与 Impala 与 Drill 的性能基准(真正的基准)?此外,这是首选 - 我的用例将主要针对 Hive 之上的临时交互式查询。谢谢。

网站上有一些性能数据 http://allegro.tech/fast-data-hackathon.html

总的来说,我们发现 Drill 和 Impala 在交互式查询方面的性能相当,Drill 的不同之处在于它无需元数据定义即可进行查询,并且易于使用 JSON数据。

请注意,这些测试是在 Drill 上的更旧版本上进行的,例如 0.8/0.9(也没有针对数据局部性进行适当配置)。现在 Drill 是 1.1,在 SQL(window 函数等)和性能方面有很多改进。

你不能做这样的基准测试,这是没有意义的,你永远不应该相信这样的基准测试。

一切都取决于你自己的数据,你有JSON个文件?更喜欢钻头。想查询1TB以上,首选Hive等

此外,您可以考虑文件格式,JSON、Kudu、Parquet 或 ORC。

然后是优化,Hive+Tez 似乎对并行查询更好,但对单个查询非常慢。而 Impala 则相反(MapReduce 与 MassiveParrarelProcessing)。

另外,你要考虑硬件资源,磁盘是否SSD等。

我建议,从 Apache Drill + JSON 文件开始,然后尝试使用 Parquet 或 ORC 的 Apache Drill。

如果您需要帮助,请准确描述您拥有什么(数据+硬件)以及您想要什么。