30天搞定spark源码系列-RDD篇

题记

通过本篇的梳理，预计大家可以对spark的RDD有更加深入的理解，而不是只为了面试做一个概念的理解。。。

对于这个定义，网络一搜一大把，这里借用一下。
RDD（Resilient Distributed Dataset）弹性分布式数据集，是spark框架中最基本的抽象元素。具有不可变，可伸缩、易并行的特点。

注意到RDD的组成了吗？有一个Dataset 哦？那是不是spark里面的dataset的概念呢？大家可以思考一下

当然，对于定义了解以后，就需要这个它都包含什么属性？

先看一下源码
30天搞定spark源码系列-RDD篇
简单理解一下：一个RDD都包含如下的属性：

看完rdd的定义，你下次说rdd的时候就不会再仅仅说一个“弹性分布式数据集”！！！

30天搞定spark源码系列-RDD篇
对于每个partition里面的数据进行计算，并返回这个partition的迭代器

30天搞定spark源码系列-RDD篇
获取rdd的partition的个数

30天搞定spark源码系列-RDD篇
获取rdd的所有依赖

30天搞定spark源码系列-RDD篇
获取partition的偏好位置，例如hdfs block位置

如果仔细查看rdd的源码， 30天搞定spark源码系列-RDD篇
我们看到，RDD这个类是抽象类，而且它的类型是ClassTag类型的泛型，那这里其实可以引出两个问题：

如下图所示，继承了rdd的类有：
30天搞定spark源码系列-RDD篇
这里继承了RDD的有70+，这里不一一读源码了，挑选几个简单的，常用的做个抛砖引玉吧。。。

30天搞定spark源码系列-RDD篇
这里教大家一个小技巧：不管看什么代码，先看这块代码的输入和输出，确定输入和输出以后再确定这个代码实现了什么功能，然后再去看怎么实现的

30天搞定spark源码系列-RDD篇
f函数的具体计算逻辑

30天搞定spark源码系列-RDD篇
这几个函数大家自己看看