Spark学习-基本名词理解

可以理解为Spark中用于数据处理的基本数据类型。

详见：https://blog.csdn.net/weixin_42078760/article/details/107272921

RDD在集群中被切分为多个分区，每个分区单独进行计算。

每个数据分片在底层存储中，都会以block形式存在。

Spark学习-基本名词理解

可以理解为RDD在转换过程中的继承和依赖关系，就像族谱一样。

这里的宽窄依赖，不是指RDD的相互依赖关系，是指数据分片间的依赖关系。

Spark学习-基本名词理解

RDD的一系列变换轨迹形成了一系列RDD，这些RDD连接起来就成了有向无环图。

一个完整的Spark计算任务在形成有向无环图后，即是明确计算目标后，进行任务阶段的划分，每个任务阶段可以理解为一个任务集。

基于任务集进一步划分具体计算任务，即是每个任务阶段执行的具体任务。

执行器分布在Spark集群各个节点，负责执行任务。

Spark学习-基本名词理解