大数据处理技术 Spark-期末复习要点 2019年春季学期
来自林子雨主讲《大数据处理技术Spark》

大数据技术概述

  • 大数据计算模式及其代表产品
    大数据处理技术 PySpark 复习提纲 图片版
  • Hadoop生态系统图,请分别阐述Hadoop生态系统的各个组成部分的主要功能
    大数据处理技术 PySpark 复习提纲 图片版
  • MapReduce的基本原理
    大数据处理技术 PySpark 复习提纲 图片版
  • YARN框架的目标和优点
    大数据处理技术 PySpark 复习提纲 图片版
  • 阐述Hadoop的缺陷以及Spark相对于Hadoop的优点
    大数据处理技术 PySpark 复习提纲 图片版
    大数据处理技术 PySpark 复习提纲 图片版

Spark的设计与运行原理

  • 描述Spark生态系统的各个组件及其功能
    下图:组件spark改为Spark Core
    大数据处理技术 PySpark 复习提纲 图片版
  • Spark的运行架构
    大数据处理技术 PySpark 复习提纲 图片版
  • Spark运行基本流程
    大数据处理技术 PySpark 复习提纲 图片版
  • 为什么说Spark采用RDD机制具有天然的容错性?
    大数据处理技术 PySpark 复习提纲 图片版
  • RDD的操作类型
    ??
  • 宽依赖和窄依赖
    是否包含Shuffle操作是区分窄依赖和宽依赖的根据
    大数据处理技术 PySpark 复习提纲 图片版

Spark环境搭建和使用方法

没有考试内容

RDD编程(整个RDD编程课件 108页)

链接

  • RDD编程基础
  • 键值对RDD
  • 数据读写
  • 综合案例
    案例1:求TOP值;案例2:文件排序;案例3:二次排序

Spark SQL

  • 为什么推出Spark SQL?
    大数据处理技术 PySpark 复习提纲 图片版
  • 从RDD转换得到DataFrame page26 链接

Spark Streaming

链接

  • 编写Spark Streaming程序的基本步骤
    大数据处理技术 PySpark 复习提纲 图片版
  • 文件流 page31
  • 套接字流 page37
  • RDD队列流 page44

Structured Streaming

不考

Spark MLlib

不考

相关文章: