如何使用 PySpark 手动检查增量 table?

How to manually checkpoint a delta table using PySpark?

我有一个 delta table,我正在尝试将数据附加到它,然后检查点 table。默认情况下,我相信它每 10 次提交检查一次,但我想手动覆盖此行为和检查点。

目前我的代码看起来像

df = get_some_source_data()
df.write.format("delta").mode("append").saveAsTable(f"{db_name}.{table_name}")

我想添加一行作为写入操作的一部分,或者在写入操作之后添加,以在 _delta_log.

中创建一个新的 delta-table 检查点

checkpointIntervaltable属性改为1saveAsTable前后)。

否则,您必须编写一些代码,使用 Delta Lake 的内部 API 来触发 table 的检查点。我以前从未做过,所以不知道它有多可行(如果有的话)。