对 Delta Lake 的困惑

Confusion About Delta Lake

delta-lake

我已经尝试阅读很多关于 databricks delta lake 的内容。据我了解，它将 ACID 事务添加到您的数据存储中，并使用增量引擎加速了查询性能。如果是这样，为什么我们需要其他不支持 ACID 事务的数据湖？ Delta lakes声称结合了数据湖和数据仓库的两个世界，我们知道它目前还不能取代传统的数据仓库，因为它目前支持运营。但它应该取代数据湖吗？为什么需要两份数据副本 - 一份在数据湖中，一份在增量湖中？

Delta Lake 是一种产品（如 Redshift）而不是 concept/approach/theory（如维度建模）。与各行各业的任何产品一样，针对该产品所做的一些声明是真实的，而另一些则是营销宣传。产品所声称的好处是否真的使其优于替代产品将因用例而异。

问为什么除了 Delta Lake 还有其他数据湖解决方案，有点像问为什么世界上有不止一个 DBMS。

在我个人的案例中，已经有一个数据湖，一个 sybase IQ，但与我可以通过 spark 到 delta 执行的查询相比，它的性能很差，速度是一个重要因素，在分区表中，它非常出色

Delta Lake 是一个开放标准。 Acid 事务指的是中途失败的写入。交易是一种安全机制。核心支持在 spark 中，但其他工具增加了对 Delta lake 的支持。三角洲湖不是产品。还有湖屋设计，它也不是产品，而是一种构建数据湖的方法。如果您遵循这些原则，您可以使用任何技术。

对 Delta Lake 的困惑

Confusion About Delta Lake

delta-lake