初识大数据(八)-----RDDs介绍

一、Driver Program
1、包含程序的main方法,RDDs的定义和操作
2、它管理很多节点,我们称作executors
初识大数据(八)-----RDDs介绍
二、Spark Context
Driver Program通过Spark Context对象访问Spark
SparkContext对象代表和一个集群的链接
在Shell中sparkContext自动创建好了,就是sc

三、RDDs
Resilient distributed datasets(弹性分布式数据集,简写RDDs)
这些RDDs,并行的分布在整个集群中

RDDs是Spark分发数据和计算的基础抽象类
Spark中,所有的计算都是通过RDDs的创建,转换操作完成的.
一个RDD内部有许多partitions(分片)组成

3.1分片
每个分片包含一部分数据,partition可在集群不同节点上计算
分片是spark并行处理的单元,spark底层会顺序地,并行地处理这些分片.

四、RDDS的创建方法
1、把一个存在的集合传给SparkContext的parallelize()的方法,
val rdd = sc.parallelize(Array(1,2,2,4),4)
第一个参数:待并行化处理的集合,
第二个参数:分区个数

2、加载外部数据集
val rddText = sc.textFile(“helloSpark.txt”)

五、scala变量的声明
在scala创建变量的时候,必须使用var或者val
val,变量值不可修改,一旦分配不能重新指向别的值
var分配后,可以指向类型相同的值

六、Scala的匿名函数和类型推断
lines.filter(line => line.contains(“word”))
定义一个匿名函数,接收一个参数line,
使用line这个String类型变量上的contains方法,并且返回结果
line的类型不需要指定,能够推断出来.