图谱:(以wordCount为例)
实际文字描述 RDD的包含关系
特殊点:存在一个方法会被划分在两个stage里面
重点方法
org.apach.spark.scheduler.DAGScheduler.scala
DAGSchedulerEventProcessLoog()
submitStage()
submitWatingStages()
stage之间的关系:
层层嵌套关系,最后一个stage为最底层
划分方式:
1.从finalStage倒推
2.通过宽依赖,来进行stage的划分
3.使用递归,优先提交父stage
作用:
知道你job被划分了哪些stage
知道每个stage包括了那些代码
待补充!!!