【发布时间】:2015-01-10 13:09:26
【问题描述】:
假设我有以下两个 RDD,具有以下密钥对值。
rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]
和
rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]
现在,我想通过键值加入它们,所以例如我想返回以下内容
ret = [ (key1, [value1, value2, value5, value6]), (key2, [value3, value4, value7]) ]
我该如何使用 Python 或 Scala 在 spark 中做到这一点?一种方法是使用 join,但 join 会在元组内创建一个元组。但我希望每个键值对只有一个元组。
【问题讨论】:
标签: python scala apache-spark rdd