【发布时间】:2018-09-11 13:58:21
【问题描述】:
我有多个 RDD,有一个公共字段 CustomerId。
例如:
debitcardRdd 的数据为(CustomerId, debitField1, debitField2, ......)
creditcardRdd 的数据为(CustomerId, creditField1, creditField2, ....)
netbankingRdd 的数据为(CustomerId, nbankingField1, nbankingField2, ....)
我们对每个单独的 rdd 执行不同的转换,但是我们需要通过分组 CustomerId 对来自所有 3 个 rdd 的数据执行转换。
示例:(CustomerId,debitFiedl1,creditField2,bankingField1,....)
有什么方法可以根据相同的键对来自所有 RDD 的数据进行分组。
注意:在 Apache Beam 中,可以使用 coGroupByKey 来完成,只需检查 spark 中是否有这样的替代方案。
【问题讨论】:
-
我明确提到了预期,它与样本数据无关。不知道为什么这被否决了。
-
我觉得你可以加入所有的rdds然后分组。
标签: apache-spark rdd