关于多个 Spark 流作业消耗一个具有相同组 id 的 kafka 主题的问题答案

【问题标题】：Question about multiple spark streaming jobs consume one kafka topic with same group id关于多个 Spark 流作业消耗一个具有相同组 id 的 kafka 主题的问题
【发布时间】：2021-10-05 17:14:54
【问题描述】：

我提交了多个使用相同“group.id”的相同 kafka 主题的 spark 流作业，如纯 Kafka 文档中所述，具有相同“group.id”的多个消费者将加入同一个消费者组，并记录在kafka 主题中的partions 将被拆分为这些消费者。但是，正如我在工作中测试的那样，这两个 spark 流式作业仍然相同地消耗主题的所有分区（不均匀拆分），并且在 who 过程中没有发生重新分区/异常。这里有没有人知道 Spark 如何以不同于纯 kafka 平台的方式管理 kafka 分区偏移量？也许这是由于 zookeeper 管理 spark 中的 kafka 偏移量而 kafka 本身管理它？

【问题讨论】：

标签： apache-kafka spark-streaming offset partition

【解决方案1】：

在理想情况下，消费者的数量应该等于你的 Kafka 中的分区数量，如果这个比例不是一比一，你就会得到不平衡。

分区数>消费者数的情况：- 很少有消费者可能从多个分区消费。

分区数

【讨论】：

取决于消费者的意思。
它是连接到您的 kafka 并从主题中消费的代码。