一、map操作,map(Transform)

(2)RDD的基本操作

二、collect操作,collect(Action)

(2)RDD的基本操作

三、使用PairRDD来做计算,类似key-value结构

采用groupByKey来。将资料按照Key值重新排序。

(2)RDD的基本操作

更好的解决方案:reduceByKey(Transform)

reduceByKey能够直接将资料根据key值聚合,减少多余的交换(shuffle)动作。

避免使用groupbykey,如果数据量过大,会造成内存溢出。

 (2)RDD的基本操作

 

(2)RDD的基本操作

(2)RDD的基本操作

 

相关文章:

  • 2021-08-26
  • 2021-11-30
  • 2021-09-06
  • 2022-03-06
  • 2021-04-25
  • 2021-11-01
  • 2022-01-20
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2021-05-27
  • 2021-07-31
  • 2022-12-23
  • 2021-10-10
  • 2021-05-21
相关资源
相似解决方案