【发布时间】:2018-01-23 12:18:29
【问题描述】:
我的 Kafka 生产者正在根据给定的键将消息分发到主题分区中。
所以,在 Spark 端,我已经有需要在同一个分区中一起处理的消息。
现在,我需要做一个 groupByKey 以在每个分区中通过键在列表中聚合值,但不需要合并分区,因为没有机会在多个分区中拥有给定的键。
我怎样才能仅在分区级别执行此 groupByKey ?
|topic-partition1| ---> |spark-partition1| -- groupByKey --> |spark-partition1.1| -- mapGroupsWithState --> ...
|topic-partition2| ---> |spark-partition2| -- groupByKey --> |spark-partition2.1| -- mapGroupsWithState --> ...
|topic-partition3| ---> |spark-partition3| -- groupByKey --> |spark-partition3.1| -- mapGroupsWithState --> ...
【问题讨论】:
标签: apache-spark spark-structured-streaming