Camus Migration - Kafka HDFS Connect 不从设置的偏移量开始

Camus Migration - Kafka HDFS Connect does not start from the set offset

我目前正在使用 Confluent HDFS Sink Connector (v4.0.0) 来替换 Camus。我们正在处理敏感数据,因此我们需要在切换到连接器期间保持偏移量的一致性。

割接计划:

  1. 我们创建了 hdfs 接收器连接器并订阅了一个写入临时 hdfs 文件的主题。这将创建一个名为 connect-
  2. 的消费者组
  3. 使用 DELETE 请求停止了连接器。
  4. 使用 /usr/bin/kafka-consumer-groups 脚本,我能够将连接器消费者组 kafka 主题分区的当前偏移量设置为所需的值(即加缪写的最后一个偏移量 + 1)。
  5. 当我重新启动 hdfs 接收器连接器时,它会继续从上次提交的连接器偏移量读取并忽略设置值。我希望 hdfs 文件名类似于: hdfs_kafka_topic_name+kafkapartition+Camus_offset+Camus_offset_plus_flush_size.format

我对汇合连接器行为的预期是否正确?

当您重新启动此连接器时,它将使用嵌入在文件中的偏移量,该文件具有写入 hdfs 的最后一个文件。它不会使用消费者组偏移量。它这样做是因为它使用预写日志来实现恰好一次交付到 hdfs。