Spark算子reduceByKey详解

Spark之reduceByKey详解

reduceByKey与groupByKey

不同之处

reduceByKey,多了一个rdd,MapPartitionsRDD,存在于stage0的,主要是代表了进行本地数据规约之后的rdd,网络传输的数据量,以及磁盘IO等,会减少,性能更高

相同之处

后面进行shuffle read和聚合的过程基本和groupByKey类似。都是ShuffledRDD,去做shuffle read。然后聚合,聚合后的数据就是最终的rdd

相关文章: