为 Delta Lake 定制 metadata/tags?

Custom metadata/tags for Delta Lake?

我正在尝试将两个 table 的版本联系在一起。就像 table A 的版本 1 用于生成 table B 的版本 3,我希望能够说明这一点。 Delta Lake 中是否已经存在可以轻松实现此功能的东西?

我想也许我可以尝试始终使两个版本号匹配,比如如果我更改一个 table,我也会对另一个 table 进行额外的操作。但这似乎不是真正的解决方案,也不是可靠的解决方案。

提前致谢!

由于 Delta 中没有自定义元数据机制并且无法协调跨 Delta 表的事务,因此解决此问题的最佳做法是向数据添加额外的列。

不必担心存储成本,因为 Parquet 压缩将使用很少的变化 space 用于列中具有相同值的长时间运行。不必担心查询性能,因为 (a) 如果您不需要元数据列,则不会检索它们,并且 (b) 如果您确实需要按元数据进行过滤,增量统计信息收集将优化查询。

希望对您有所帮助。