Azure Databricks 和 Delta Layer 是否使其成为 Lakehouse?

Does Azure Databricks and Delta Layer make it a Lakehouse?

即使查阅了很多资源,我仍无法理解湖屋的构成,因此我提出以下问题。

如果我们有 Azure Gen 2 存储、ADF 和 Azure Databricks,并且可以将传入的 CSV 文件转换为增量表,那么它可以称为“Lakehouse”架构还是称为“Delta Lake”?

还是 Delta Lake 层之上的“SQL 分析”引擎使其成为“Lakehouse”?

请说明。

在高级别上,Lakehouse 必须包含以下属性:

  1. 开放直接访问数据格式(Apache Parquet、Delta Lake 等)
  2. 首先 class 支持机器学习和数据科学工作负载
  3. 最先进的性能

Databricks是第一个Lakehouse,因为它满足以上三个属性。具体来说,如果您将 Databricks 与 ADLS 一起使用并将所有数据(json、csv、parquet、消息等)转换为 Databricks 中可用的增量表。那就是湖屋的制作,但它仍然需要建造和支持。 Databricks 平台允许我们满足上面的第 2 点和第 3 点,而 Delta Lake 满足 1 和 3(性能依赖于引擎和存储,这就是为什么 3 被提到两次)。

利用 Databricks 和访问存储在 Delta 中的数据是一个 Lakehouse。通过添加 Databricks SQL(正式名称为 SQL Analytics),我们允许更多用户访问和使用 Lakehouse。在 Databricks SQL 中,用户使用的计算和数据与数据工程师在 Databricks 中使用的相同,只是他们所熟悉的 UI 不同。此外,Databricks SQL 针对 SQL 和 BI 工作负载进行了优化,而笔记本环境更适合工程和数据科学

作为有趣的阅读,您应该查看我们的 Lakehouse whitepaper