如何处理数据湖与数据仓库中的历史化数据?

How to deal with historicization data in a data lake vs data warehouse?

在经典数据仓库中对数据进行历史化是可能的(甚至是核心功能)。随着时间的推移,数据将被添加到数据仓库中,并且可以在数据上及时移动。

如果我只想使用数据湖并为业务用户提供数据历史记录,这可能吗?如果是,可能的方法会是什么样子?

是的 - 你可以做到。如果您只是插入数据,那么默认情况下您将拥有所有数据的完整历史记录。

可能的方法完全取决于您 运行 支持数据湖的技术、您在数据湖中构建数据的方式、您的业务用户用来访问数据的工具,等。因此,如果没有您提供的更多信息,就不可能给您答案 - 除了通用的“是的,可以将历史数据保存在数据湖中”

您的经典数据仓库会将数据集中在一起,以时间序列为中心进行建模。

数据湖以原始格式保存原始数据,通常不会考虑时间序列来存储这些数据。您可以存储数据,以便计算出时间序列和历史变化,但数据湖将缺少数据仓库的预建模、易于访问的时间序列方面。