apache drill 的局限性是什么?

What are the limitations of apache drill?

  • what are the limitations of Apache Drill?
  • where it fails when compared to Apache hive/impala?

我对演练的整体看法,

Apache drill 的主要优点之一是您可以跨多个数据库进行查询。您只需要配置源并直接查询它们。这就是 Apache drill 的最大优势。事实证明,它是许多其他技术中最好的查询。(查看参考资料 2)

我不能称它为限制,但因为它是一个查询引擎,所以它只是使用方解石查询引擎进行 sql 查询解析并在节点上执行查询。它不会处理查询执行的 failure/cancellation。您的应用程序需要处理这个问题。

自从它的进化版本以来,它有很多限制,比如。

  1. 像oracle/mySql这样的聚合函数并不多,例如。 MINUS,DECODE,TO_TIMESTAMP(非常小), GREATEST,LEAST,
  2. 即使在用户定义的函数上,您也可以做的事情非常少。
  3. 不支持分层查询(在 oracle 中通过先验连接)
  4. 它无法读取 xml 数据(仅 json、csv、parquet..)
  5. 不支持单行子查询。
  6. 加入限制
  7. 它没有架构,因此可能会造成一些混乱。

Apache Drill 仍然是一个不断发展的版本,所有 issues/limitations 都将在下一个版本的 Drill 中得到支持。

希望对您有所帮助。

参考文献:

  1. https://issues.apache.org/jira/browse/DRILL/?selectedTab=com.atlassian.jira.jira-projects-plugin:summary-panel
  2. http://allegro.tech/2015/06/fast-data-hackathon.html
  3. https://drill.apache.org/docs/compiling-drill-from-source/
  4. https://drill.apache.org/docs/nested-data-limitations/
  5. http://www.dbta.com/BigDataQuarterly/Articles/The-Importance-of-Apache-Drill-to-the-Big-Data-Ecosystem-103000.aspx
  6. https://www.mapr.com/blog/top-10-reasons-using-apache-drill-now-part-mapr-distribution-including-hadoop