图谱:(以wordCount为例)

DAGScheduler 源码分析
实际文字描述 RDD的包含关系
特殊点:存在一个方法会被划分在两个stage里面


重点方法
org.apach.spark.scheduler.DAGScheduler.scala

DAGSchedulerEventProcessLoog()
submitStage()
submitWatingStages()

stage之间的关系:
层层嵌套关系,最后一个stage为最底层

划分方式:
1.从finalStage倒推
2.通过宽依赖,来进行stage的划分
3.使用递归,优先提交父stage

作用:
知道你job被划分了哪些stage
知道每个stage包括了那些代码

 

待补充!!!

相关文章: