大数据处理技术 Spark-期末复习要点 2019年春季学期
来自林子雨主讲《大数据处理技术Spark》
大数据技术概述
- 大数据计算模式及其代表产品
- Hadoop生态系统图,请分别阐述Hadoop生态系统的各个组成部分的主要功能
- MapReduce的基本原理
- YARN框架的目标和优点
- 阐述Hadoop的缺陷以及Spark相对于Hadoop的优点
Spark的设计与运行原理
- 描述Spark生态系统的各个组件及其功能
下图:组件spark改为Spark Core - Spark的运行架构
- Spark运行基本流程
- 为什么说Spark采用RDD机制具有天然的容错性?
- RDD的操作类型
?? - 宽依赖和窄依赖
是否包含Shuffle操作是区分窄依赖和宽依赖的根据
Spark环境搭建和使用方法
没有考试内容
RDD编程(整个RDD编程课件 108页)
- RDD编程基础
- 键值对RDD
- 数据读写
- 综合案例
案例1:求TOP值;案例2:文件排序;案例3:二次排序
Spark SQL
- 为什么推出Spark SQL?
- 从RDD转换得到DataFrame page26 链接
Spark Streaming
- 编写Spark Streaming程序的基本步骤
- 文件流 page31
- 套接字流 page37
- RDD队列流 page44
Structured Streaming
不考
Spark MLlib
不考