【发布时间】:2021-05-31 22:40:10
【问题描述】:
我正在尝试使用 gpss (Greenplum Stream Server) 将数据从 Kafka 加载到 GreenplumDB。
主要问题是如何\当gpss 实例将当前写入的偏移量提交给 kafka?
现在gpss 实例没有向 kafka 提交任何消息,而是处理 GreenplumDB 中服务表中的当前偏移量。
我的预期行为是:
- 使用给定的 group.id 和主题(在 kafka 中是强制性的,在 gpss 设置中不是强制性的 - 顺便说一句看起来很奇怪)
- 开始使用来自 kafka 主题的数据
- 按分区跟踪更高的偏移量
- 在 COMMIT 条件出现时等待(COMMIT 是 gpss 作业配置中的设置块)
- 使用
gpfdist将一批数据从kafka写入外部表 - 将分区的最大偏移量提交给 kafka
- 重复
但现在它在没有步骤 n.5 的情况下工作 有人知道为什么吗?
第二个问题是 - gpss 是否使用 group.id?
在 gpss 作业配置中,我找到了与 kafka 消费者配置属性相对应的 PROPERTIES 块配置
【问题讨论】: