【发布时间】:2018-10-16 02:00:36
【问题描述】:
环境是 pyspark,Spark 版本 2.2。
我们有两个 rdds test1 和 test2,下面是示例数据
test1 = [('a', 20), ('b', 10), ('c', 2)]
test2 = [('a', 2), ('b', 3)]
现在我们要生成output1,如下所示,感谢您的帮助。
[('a', 20, 2), ('b', 10, 3)]
【问题讨论】:
-
您是要获取出现次数还是只是在两个
rdd之间进行连接?