spark rdd之间的宽依赖和窄依赖

①task从hdfs读取数据到linesRDD中,同一批task对linesRDD进行flatMap操作;

②继续对wordsRDD做map操作,记录单词次数

③这个地方会划分一个stage,新的一批task会提交到executor上,对pairs RDD做reduceByKey操作

窄依赖(narrow dependency):每一个父RDD的Partition最多被子RDD的一个Partition使用。

宽依赖(Shuffle dependency):指的是多个子RDD的Partition会依赖同一个父RDD的Partition,本质上每一个父RDD中数据都有可能传播到子RDD中,即这也是数据发生shuffle的过程。

相关文章:

  • 2022-01-15
  • 2021-11-16
  • 2021-07-23
  • 2022-03-05
  • 2022-12-23
  • 2022-12-23
  • 2021-09-22
猜你喜欢
  • 2021-09-01
  • 2022-01-14
  • 2021-07-08
  • 2022-12-23
  • 2022-01-15
  • 2022-01-08
  • 2021-11-26
相关资源
相似解决方案