当 greenplum gpss 提交到 kafka 主题时

When greenplum gpss commit to kafka topic

我正在尝试使用 gpss (Greenplum Stream Server) 将数据从 Kafka 加载到 GreenplumDB。

主要问题是how\when gpss实例将当前写入偏移量提交给kafka?

现在gpss 实例不向kafka 提交任何消息,但在GreenplumDB 中处理服务table 中的当前偏移量。 我的预期行为是:

  1. 使用给定的 group.id 和主题(在 kafka 中是强制性的,在 gpss 设置中不是强制性的 - 顺便说一句,看起来很奇怪)
  2. 开始从kafka主题消费数据
  3. 按分区跟踪更高的偏移量
  4. 等待 COMMIT 条件发生(COMMIT 是 gpss 作业配置中的设置块)
  5. 使用gpfdist
  6. 从kafka向外部table写入一批数据
  7. 将分区的最大偏移量提交给 kafka
  8. 重复

但现在它没有第 n.5 步就可以工作 有人知道为什么吗?

第二个问题是 - gpss 是否使用 group.id? 在 gpss 作业配置中,我发现 PROPERTIES 块配置对应于 kafka 消费者配置属性

如果从 1.6.0 版本开始在 yaml 文件中设置了 'group.id',

gpss 会将消耗的偏移量提交给 Kafka。之前只对Greenplum的跟踪table提交了offset