分布式弹性数据集 RDD(Resilient Distribute DataSet)
可以理解为Spark中用于数据处理的基本数据类型。
详见:https://blog.csdn.net/weixin_42078760/article/details/107272921
数据分区 Partition
RDD在集群中被切分为多个分区,每个分区单独进行计算。
数据块 Block
每个数据分片在底层存储中,都会以block形式存在。
RDD、Parittion和Block的关系
血统 Lineage
可以理解为RDD在转换过程中的继承和依赖关系,就像族谱一样。
窄依赖 Narrow Dependencies 与 宽依赖Wide Dependencies
这里的宽窄依赖,不是指RDD的相互依赖关系,是指数据分片间的依赖关系。
有向无环图 DAG(Directed Acyclic Graph)
RDD的一系列变换轨迹形成了一系列RDD,这些RDD连接起来就成了有向无环图。
任务集 Stage
一个完整的Spark计算任务在形成有向无环图后,即是明确计算目标后,进行任务阶段的划分,每个任务阶段可以理解为一个任务集。
任务 Task
基于任务集进一步划分具体计算任务,即是每个任务阶段执行的具体任务。
执行器 Executor
执行器分布在Spark集群各个节点,负责执行任务。