什么是 Apache Kylin 用例?

What are Apache Kylin Use Cases?

我最近遇到了 Apache Kylin,并且很好奇它的用例是什么。据我所知,它似乎是一种旨在解决与超过 10+ 十亿行、聚合、缓存和查询来自其他来源(HBase、Hadoop、Hive)的数据相关的非常具体的问题的工具。我的这个假设是否正确?

Apache Kylin 的用例是 Hadoop 上的交互式大数据分析。它允许您通过 3 个简单的步骤以亚秒级延迟查询大型 Hive 表。

  1. 确定一组星型模式的 Hive 表。
  2. 在离线批处理中从 Hive 表构建多维数据集。
  3. 使用 SQL 查询 Hive 表并通过 Rest API、ODBC 或 JDBC.
  4. 在亚秒内获得结果

用例非常通用,只要您可以从表中定义星型模式和模型多维数据集,它就可以快速查询任何 Hive 表。如果您不确定什么是星型模式,什么是立方体,请查看Kylin terminologies

Kylin 提供 ANSI SQL 接口,因此您可以像以前一样查询 Hive 表。然而,一个限制是 Kylin 只提供聚合结果,或者换句话说,SQL 应该包含一个 "group by" 子句以产生正确的结果。这通常很好,因为大数据分析更多地关注聚合结果而不是单个记录。