>>> rdd = sc.parallelize([("bone", 231), ("bone", 21213), ("jack",1)])

>>> rdd.groupByKey().map(lambda x: sum(x[1])).collect()
[1, 21444]
>>> rdd.groupByKey().map(lambda x: (x[0],sum(x[1]))).collect()
[('jack', 1), ('bone', 21444)]
>>> rdd.groupByKey().map(lambda x: (x[0],sum(x[1].data))).collect()
[('jack', 1), ('bone', 21444)]


>>> rdd.groupByKey().mapValues(lambda x: sum(x)).collect()
[('jack', 1), ('bone', 21444)]
>>> rdd.groupByKey().mapValues(lambda x: sum(x.data)).collect()
[('jack', 1), ('bone', 21444)]


相关文章:

  • 2021-12-20
  • 2021-10-28
  • 2022-03-08
  • 2022-12-23
  • 2022-12-23
  • 2022-02-09
  • 2021-09-22
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-09-12
  • 2022-12-23
  • 2021-09-10
  • 2021-06-25
相关资源
相似解决方案