【问题标题】:Question about multiple spark streaming jobs consume one kafka topic with same group id关于多个 Spark 流作业消耗一个具有相同组 id 的 kafka 主题的问题
【发布时间】:2021-10-05 17:14:54
【问题描述】:

我提交了多个使用相同“group.id”的相同 kafka 主题的 spark 流作业,如纯 Kafka 文档中所述,具有相同“group.id”的多个消费者将加入同一个消费者组,并记录在kafka 主题中的partions 将被拆分为这些消费者。但是,正如我在工作中测试的那样,这两个 spark 流式作业仍然相同地消耗主题的所有分区(不均匀拆分),并且在 who 过程中没有发生重新分区/异常。这里有没有人知道 Spark 如何以不同于纯 kafka 平台的方式管理 kafka 分区偏移量?也许这是由于 zookeeper 管理 spark 中的 kafka 偏移量而 kafka 本身管理它?

【问题讨论】:

    标签: apache-kafka spark-streaming offset partition


    【解决方案1】:

    在理想情况下,消费者的数量应该等于你的 Kafka 中的分区数量,如果这个比例不是一比一,你就会得到不平衡。

    分区数>消费者数的情况:- 很少有消费者可能从多个分区消费。

    分区数

    【讨论】:

    • 取决于消费者的意思。
    • 它是连接到您的 kafka 并从主题中消费的代码。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-12-13
    • 1970-01-01
    • 2022-12-03
    • 2018-07-15
    • 2020-02-10
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多