对 Delta Lake 的困惑

Confusion About Delta Lake

我已经尝试阅读很多关于 databricks delta lake 的内容。据我了解,它将 ACID 事务添加到您的数据存储中,并使用增量引擎加速了查询性能。如果是这样,为什么我们需要其他不支持 ACID 事务的数据湖? Delta lakes声称结合了数据湖和数据仓库的两个世界,我们知道它目前还不能取代传统的数据仓库,因为它目前支持运营。但它应该取代数据湖吗?为什么需要两份数据副本 - 一份在数据湖中,一份在增量湖中?

Delta Lake 是一种产品(如 Redshift)而不是 concept/approach/theory(如维度建模)。 与各行各业的任何产品一样,针对该产品所做的一些声明是真实的,而另一些则是营销宣传。产品所声称的好处是否真的使其优于替代产品将因用例而异。

问为什么除了 Delta Lake 还有其他数据湖解决方案,有点像问为什么世界上有不止一个 DBMS。

在我个人的案例中,已经有一个数据湖,一个 sybase IQ,但与我可以通过 spark 到 delta 执行的查询相比,它的性能很差,速度是一个重要因素,在分区表中,它非常出色

Delta Lake 是一个开放标准。 Acid 事务指的是中途失败的写入。交易是一种安全机制。核心支持在 spark 中,但其他工具增加了对 Delta lake 的支持。三角洲湖不是产品。还有湖屋设计,它也不是产品,而是一种构建数据湖的方法。如果您遵循这些原则,您可以使用任何技术。