当 greenplum gpss 提交到 kafka 主题时
When greenplum gpss commit to kafka topic
我正在尝试使用 gpss
(Greenplum Stream Server) 将数据从 Kafka 加载到 GreenplumDB。
主要问题是how\when gpss
实例将当前写入偏移量提交给kafka?
现在gpss
实例不向kafka 提交任何消息,但在GreenplumDB 中处理服务table 中的当前偏移量。
我的预期行为是:
- 使用给定的 group.id 和主题(在 kafka 中是强制性的,在 gpss 设置中不是强制性的 - 顺便说一句,看起来很奇怪)
- 开始从kafka主题消费数据
- 按分区跟踪更高的偏移量
- 等待 COMMIT 条件发生(COMMIT 是 gpss 作业配置中的设置块)
- 使用
gpfdist
从kafka向外部table写入一批数据
- 将分区的最大偏移量提交给 kafka
- 重复
但现在它没有第 n.5 步就可以工作
有人知道为什么吗?
第二个问题是 - gpss 是否使用 group.id?
在 gpss 作业配置中,我发现 PROPERTIES
块配置对应于 kafka 消费者配置属性
如果从 1.6.0 版本开始在 yaml 文件中设置了 'group.id',gpss 会将消耗的偏移量提交给 Kafka。之前只对Greenplum的跟踪table提交了offset
我正在尝试使用 gpss
(Greenplum Stream Server) 将数据从 Kafka 加载到 GreenplumDB。
主要问题是how\when gpss
实例将当前写入偏移量提交给kafka?
现在gpss
实例不向kafka 提交任何消息,但在GreenplumDB 中处理服务table 中的当前偏移量。
我的预期行为是:
- 使用给定的 group.id 和主题(在 kafka 中是强制性的,在 gpss 设置中不是强制性的 - 顺便说一句,看起来很奇怪)
- 开始从kafka主题消费数据
- 按分区跟踪更高的偏移量
- 等待 COMMIT 条件发生(COMMIT 是 gpss 作业配置中的设置块)
- 使用
gpfdist
从kafka向外部table写入一批数据
- 将分区的最大偏移量提交给 kafka
- 重复
但现在它没有第 n.5 步就可以工作 有人知道为什么吗?
第二个问题是 - gpss 是否使用 group.id?
在 gpss 作业配置中,我发现 PROPERTIES
块配置对应于 kafka 消费者配置属性
gpss 会将消耗的偏移量提交给 Kafka。之前只对Greenplum的跟踪table提交了offset