在 Azure 数据湖中的增量 table 中创建了多少个版本

How many versions are created in a delta table in a Data lake on Azure

我有一个需要澄清的问题。根据我的阅读,Delta tables 创建 0--原始数据,1--table.

中一行的更新数据版本

所以基本上我们在 Delta tables 中只有两个版本的数据,或者这是可配置的?发生了什么,当我们多次更新同一行时,delta table 只保留最新版本的更新?

提前致谢。

Delta 将为每个操作创建一个新版本 - insert/update/delete,也会为其他操作创建一个新版本,例如更改 table 的属性、优化、清理等,尽管有些操作会不创建新文件(更新 table 属性),甚至删除不使用的文件(真空)。

请注意,Delta 中的数据文件不是 mutable,当您更新或删除数据时,Delta 会识别哪些文件包含 update/delete 的数据,并创建新文件修改后的数据。这就是为什么定期 运行 VACUUM 很重要,这样您就可以删除旧文件(尽管它会限制您在给定时间段内进行时间旅行的能力 - 默认为一周)