【发布时间】:2021-10-05 17:14:54
【问题描述】:
我提交了多个使用相同“group.id”的相同 kafka 主题的 spark 流作业,如纯 Kafka 文档中所述,具有相同“group.id”的多个消费者将加入同一个消费者组,并记录在kafka 主题中的partions 将被拆分为这些消费者。但是,正如我在工作中测试的那样,这两个 spark 流式作业仍然相同地消耗主题的所有分区(不均匀拆分),并且在 who 过程中没有发生重新分区/异常。这里有没有人知道 Spark 如何以不同于纯 kafka 平台的方式管理 kafka 分区偏移量?也许这是由于 zookeeper 管理 spark 中的 kafka 偏移量而 kafka 本身管理它?
【问题讨论】:
标签: apache-kafka spark-streaming offset partition