如何使用 PySpark 手动检查增量 table?
How to manually checkpoint a delta table using PySpark?
我有一个 delta table,我正在尝试将数据附加到它,然后检查点 table。默认情况下,我相信它每 10 次提交检查一次,但我想手动覆盖此行为和检查点。
目前我的代码看起来像
df = get_some_source_data()
df.write.format("delta").mode("append").saveAsTable(f"{db_name}.{table_name}")
我想添加一行作为写入操作的一部分,或者在写入操作之后添加,以在 _delta_log
.
中创建一个新的 delta-table 检查点
将checkpointInterval
table属性改为1
(saveAsTable
前后)。
否则,您必须编写一些代码,使用 Delta Lake 的内部 API 来触发 table 的检查点。我以前从未做过,所以不知道它有多可行(如果有的话)。
我有一个 delta table,我正在尝试将数据附加到它,然后检查点 table。默认情况下,我相信它每 10 次提交检查一次,但我想手动覆盖此行为和检查点。
目前我的代码看起来像
df = get_some_source_data()
df.write.format("delta").mode("append").saveAsTable(f"{db_name}.{table_name}")
我想添加一行作为写入操作的一部分,或者在写入操作之后添加,以在 _delta_log
.
将checkpointInterval
table属性改为1
(saveAsTable
前后)。
否则,您必须编写一些代码,使用 Delta Lake 的内部 API 来触发 table 的检查点。我以前从未做过,所以不知道它有多可行(如果有的话)。