Kafka 中的 Spark 偏移量管理
Spark Offset Management in Kafka
我正在使用 Spark Structured Streaming(版本 2.3.2)。我需要从 Kafka 集群读取并写入 Kerberized Kafka。
这里我想在记录写入 Kerberized Kafka 后使用 Kafka 作为偏移量检查点。
问题:
- 我们可以使用 Kafka 作为检查点来管理偏移量,还是只需要使用 HDFS/S3?
请帮忙。
Can we use Kafka for checkpointing to manage offset
不,您不能将偏移量提交回您的源 Kafka 主题。这在here and of course in the official Spark Structured Streaming + Kafka Integration Guide.
中有详细描述
or do we need to use only HDFS/S3 only?
是的,这必须是 HDFS 或 S3 之类的东西。这在 StructuredStreaming 编程指南的 Recovering from Failures with Checkpointing 节中进行了解释:“此检查点位置必须是 HDFS 兼容文件系统 中的路径 ,并且可以设置为开始查询时的 DataStreamWriter。"
我正在使用 Spark Structured Streaming(版本 2.3.2)。我需要从 Kafka 集群读取并写入 Kerberized Kafka。 这里我想在记录写入 Kerberized Kafka 后使用 Kafka 作为偏移量检查点。
问题:
- 我们可以使用 Kafka 作为检查点来管理偏移量,还是只需要使用 HDFS/S3?
请帮忙。
Can we use Kafka for checkpointing to manage offset
不,您不能将偏移量提交回您的源 Kafka 主题。这在here and of course in the official Spark Structured Streaming + Kafka Integration Guide.
中有详细描述or do we need to use only HDFS/S3 only?
是的,这必须是 HDFS 或 S3 之类的东西。这在 StructuredStreaming 编程指南的 Recovering from Failures with Checkpointing 节中进行了解释:“此检查点位置必须是 HDFS 兼容文件系统 中的路径 ,并且可以设置为开始查询时的 DataStreamWriter。"