Spark Structured Streaming Kafka Integration 抵消管理

Spark Structured Streaming Kafka Integration Offset management

文档说：

enable.auto.commit: Kafka source doesn’t commit any offset.

因此我的问题是，如果有工人或分区 crash/restart :

这似乎很重要。关于如何处理它的任何指示？

我也运行关注这个问题。

您对 2 个选项的观察是正确的，即

然而...

通过添加以下选项可以选择检查点：

.writeStream .<something else> .option("checkpointLocation", "path/to/HDFS/dir") .<something else>

如果发生故障，Spark 将检查此检查点目录的内容，在接受任何新数据之前恢复状态。

希望对您有所帮助！