Kafka 中的 Spark 偏移量管理

Spark Offset Management in Kafka

我正在使用 Spark Structured Streaming(版本 2.3.2)。我需要从 Kafka 集群读取并写入 Kerberized Kafka。 这里我想在记录写入 Kerberized Kafka 后使用 Kafka 作为偏移量检查点。

问题:

  1. 我们可以使用 Kafka 作为检查点来管理偏移量,还是只需要使用 HDFS/S3?

请帮忙。

Can we use Kafka for checkpointing to manage offset

不,您不能将偏移量提交回您的源 Kafka 主题。这在here and of course in the official Spark Structured Streaming + Kafka Integration Guide.

中有详细描述

or do we need to use only HDFS/S3 only?

是的,这必须是 HDFS 或 S3 之类的东西。这在 StructuredStreaming 编程指南的 Recovering from Failures with Checkpointing 节中进行了解释:“此检查点位置必须是 HDFS 兼容文件系统 中的路径 ,并且可以设置为开始查询时的 DataStreamWriter。"