【发布时间】:2021-07-06 15:38:31
【问题描述】:
我有以下 RDD:
[(1, 300), (4, 60), (4, 20), (2, 2), (2, 3), (2, 5)]
我预期的 RDD 是:
[(1,[300, 1]), (2,[10, 3]), (4,[80,2])]
元组中列表中的第一个值是总和(例如,对于 2:它的 2+3+5 = 10),第二个值是第一个值。发生次数(例如 1 发生一次)。使用 groupBy 函数可以达到预期的 RDD 吗?
【问题讨论】:
标签: python apache-spark pyspark rdd