Spark处理框架 - 爱码网

Spark 处理框架

一、 Spark VS Hadoop

Hadoop MapReduce局限性
- 表达能力有限
  - 计算必须转为map和reduce函数，这并不适合所有的情况，无法直接用join等操作
- 磁盘IO开销大（单个job）
  - 输入、输出及shuffle中间结果都需要读写磁盘
- 延迟高（多个job）
  - 一次计算可能需要分解成一系列按顺序执行的MapReduce任务，任务之间的衔接由于涉及到IO开销，会产生较高延迟。
  - 有依赖关系：job之间的衔接涉及IO开销
    - 迭代计算过程中每一迭代结束时都会将结果写入HDFS，下一步将该结果再次从HDFS读出
  - 无依赖关系：在前一个job执行完成之前，其他job依然无法开始
Spark的改进：
- 表达能力有限
  - 并不局限于Map和Reduce操作，还提供了多种数据集操作类型，如增加join等更多复杂的函数，可以串联为DAG
  - 磁盘IO开销大（单个job)
    - 非shuffle阶段避免中间结果写磁盘
    - 尽量避免中间结果写磁盘，即利用内存（但是还是会使用磁盘的）
  - 延迟高（多个job作为一整个job）
    - 基于DAG的任务调度执行机制，要优于MapReduce的迭代执行机制。
    - 将原来的多个job作为一个job的多个阶段
      - 有依赖关系：各个阶段的衔接尽量（优先使用）写内存
      - 无依赖关系：多个阶段可以同时执行
注：一开始spark完全依赖于内存，但有时候内存爆掉，效果不好，因此就引入磁盘
spark特点：
- 运行速度快：
  - DAG执行引擎支持循环数据流与内存计算（要由于hadoop mapreduce的迭代执行）
- 容易使用：
  - 支持使用Scala、java、Python和R语言，可以通过Spark Shell进行交互式
- 通用性
  - spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件。
- 运行模式多样：
  - 可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS等多种数据源。
Spark与Hadoop的对比
- spark同时支持批处理、交互式查询和流数据处理。
- spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比MapReduce更灵活。
- spark提供了内存计算，可将迭代过程中的结果放到内存中，对于迭代运算效率更高。
  - spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制。
Spark和Hadoop的执行流程
- hadoop输入输出都是文件
- Spark读取内存：对文件增加一些信息，文件从哪里来（为了从内存中读），对文件包装一下

spark生态系统主要组件：
- Spark Core：包含spark的基本功能，主要面向批数据处理。：如MapReduce
- Spark SQL：基于历史数据的交互式查询
- Spark Streaming：基于实时数据流的数据处理：如storm
- MLlib：基于历史数据的数据挖掘（机器学习）：如Mahout
- GraphX：图结构数据的处理：如Pregel、Hama

二、 RDD抽象

RDD概念：
- Spark的核心是建立在统一的抽象RDD上的，使得Spark的各个组件可以无缝地进行集成，在同一个应用程序中完成大数据计算任务。
- RDD提供了一个抽象的数据结构，我们不必担心底层数据的分布式特性，只需将具体的应用逻辑表达为一系列转换处理，不同RDD之间的转换操作形成依赖关系，可以实现管道化，从而避免了中间结果的存储，大大降低了数据复制、磁盘IO和序列化开销。
- RDD：Redilient Distributed Dataset （弹性分布式数据集）
  - 可恢复的记录分区的数据集合
  - 分布式内存的一个抽象概念
  - 数据集本身有一定能力做恢复
  - 提供了一个高度受限的共享内存模型
  - Redilient：基于可恢复的容错特性
  - Distributed：每个RDD可分成多个分区，一个RDD的不同分区可以存到集群中不同的节点上。
  - Dataset：每个分区就是一个数据集片段
- DAG：是有向无环图的简称，反映RDD之间的依赖关系
- RDD特性：
  - RDD只读（Immutable)
    - 本质上一个只读的对象集合
    - 不能修改
    - 只能基于稳定的物理存储中的数据集创建RDD
    - 通过在其他RDD上执行确定的转换操作（如map、join和group by）而得到新的RDD。
  - RDD支持运算操作（map、reduce、自定义）
    - 转换：描述RDD的转换逻辑（map，reduce，join）
    - 动作：标志转换结束，触发DAG生成（依赖图）
      - 惰性求值：只有遇到行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作。之前，spark只是记录了RDD之间的生成和依赖关系。
RDD运算操作：
- 都是组粒度的数据转换操作。
RDD Lineage
- 即DAG拓扑结构
  - RDD读入外部数据源进行创建
  - RDD经过一系列的转换（Transformation）操作，每一次都会产生不同的RDD，供给下一个转换操作使用
  - 最后一个RDD经过“动作”操作进行转换，并输出到外部数据源
- 采用惰性调用，一系列RDD操作可以实现管道化，避免了多次转换操作之间数据同步的等待，一个操作得到的结果不需要保存为中间数据，而是直接管道式地流入到下一个操作进行处理。
RDD特性
- 高效的容错性
- 数据只读，不可修改，因为不需要通过数据冗余的方式（比如检查点）实现容错
- 通过RDD父子依赖关系重新计算得到丢失的分区来实现容错，无需回滚整个系统，避免数据复制的高开销，而且重算过程可以在不同节点之间并行进行；
  - RDD提供的转换操作都是一些粗粒度的操作
- 中间结果持久化到内存
  - 避免了不必要的读写磁盘开销
- 存放的数据可以是Java对象，避免不必要的对象序列化和范序列化开销
RDD之间的依赖关系
- 窄依赖：
  - 表现为一个父RDD的分区对应于一个子RDD的分区，或者多个父RDD的分区对应于一个子RDD的分区
  - 典型的操作：map,filter,union
- 宽依赖：
  - 表现为存在一个父RDD的一个分区对应一个子RDD的多个分区典型的操作：groupByKey,sortByKey
  - Join操作
    - 窄依赖：对输入进行协同操作
      - 指多个父RDD的某一分区的所有“键”落在子RDD的同一个分区内，不会产生同一个父RDD的某一分区落在子RDD的两个分区的情况（如 a）
    - 宽依赖：对输入做非协同划分（如b）
- 窄依赖子分区丢失
  - 只需要根据父RDD分区重新计算丢失的分区即可
- 宽依赖子分区丢失
  - 会涉及多个父RDD分区
- 最优的恢复策略：
  - 在检查点开销和重新计算RDD 之间进行比较
划分阶段
- spark分析各个RDD的偏序关系生成DAG，再通过分析各个RDD中的分区之间的依赖关系来决定如何划分Stage
- 具体划分方法：
  - 在DAG中进行反向解析，遇到宽依赖就断开
  - 遇到窄依赖就把当前的RDD加入到Stage中
  - 将窄依赖尽量划分在同一个Stage中，可以实现流水线计算 pipeline
- 把一个DAG图划分成多个阶段以后，每个阶段都代表了一组关联的、相互之间没有shuffle依赖关系的任务组成的任务集合。每个任务集合会被提交给任务调度器进行处理，由任务调度器将任务分发给Executor运行。
  - Stage类型
    - ShuffleMapStage
      - 输入/输出
        
        输入边界可以是从外部获取数据，也可以是另一个ShuffleMapStage的输出
        
        以Shuffle为输出边界，作为另一个Stage开始
      - 特点：
        
        不是最终的Stage，在它之后还有其他Stage
        
        它的输出一定需要经过Shuffle过程，并作为后续Stage的输入
        
        在一个Job里可能有该类型的Stage，也可能没有该类型Stage
    - ResultStage
      - 输入/输出
        
        其输入边界可以是从外部获取数据，也可以是另一个ShuffleMapStage的输出
        
        输出直接产生结果或存储
      - 特点：
        
        在一个Job里必定有该类型Stage
        
        最终的Stage
  因此，一个DAG含有一个或多个Stage，其中至少含有一个ResultStage

三、体系结构

Spark架构图
架构设计
- Master :管理整个系统
  - 集群资源管理器（Cluster Manager）
  - 资源管理器可以自带或Mesos或YARN
    - Worker：运行作业的工作节点
      - 负责任务执行的进程(Executor）
        
        利用多线程来执行具体的任务（mapreduce采用的是进程模型）
        
        executor中有一个blockmanager存储模块，会将内存和磁盘共同作为存储设备
      - 负责任务执行的线程(Task)
    - Application：用户编写的Spark应用程序
    - Job：一个Job包含多个RDD及作用于相应RDD上的各种操作
    - Stage：一个Job会分为多组Task，每组Task被称为Stage，或者也被称为TaskSet
      - Job的基本调度单位
      - 代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集
    - Task：运行在Executor上的工作单元
  - 一个应用由一个Driver和若干个Job构成，一个job由多个taskset构成，一个taskset由多个task构成。
  - 当执行一个应用时，driver向cluster manager申请资源，启动executor，并向executor发送应用程序代码和文件，然后在executor上执行任务。
作业与任务

四、工作流程
Spark处理框架

Spark处理框架

Spark Executor
- 与MapReduce相比，Spark所采用的Executor有两个优点：
  - 利用多线程来执行具体的任务，减少任务的启动开销
  - Executor中有一个BlockManager存储模块，会将内存和磁盘共同作为存储设备，有效减少IO开销
- DAG运行过程：
  1. 创建RDD对象
  2. SparkContext负责计算RDD之间的依赖关系，构建DAG
    DAGScheduler负责把DAG图分解成多个Stage，每个Stage中包含了多个Task，每个Task会被TaskScheduler分发给各个WorkerNode上的Executor去执行。

五、容错机制

Master故障
- 通过zookeeper恢复
Worker故障
- Lineage机制
  - 窄依赖(narrow dependency)
    - 执行某个partition时，检查父亲RDD对应的partition是否存在
      - 存在，即可执行当前RDD对应的操作
      - 不存在，则重构父亲RDD对应的partition
  - 宽依赖(wide dependency)
    - 执行某个partition时，检查父亲RDD对应的partition是否存在
      - 存在，即可执行当前RDD对应的操作
      - 不存在，则重构整个父亲RDD
    - RDD存储机制
      - 血缘关系，重算过程在不同节点之间并行，只记录粗粒度的操作
      - RDD提供的持久化（缓存）接口
        
        persist()：对一个RDD标记为持久化
        
        接受StorageLevel类型参数，可配置各种级别
        
        持久化后的RDD将会被保留在计算节点的中被后面的行动操作重复使用
      - cache()
        
        相当于persist(MEMORY_ONLY)
      - unpersist()
        
        手动地把持久化的RDD从缓存中移除
  - 检查点机制
    - 前述机制的不足之处
      - Lineage可能非常长
      - RDD存储机制主要面向本地磁盘的存储
        
        检查点机制将RDD写入可靠的外部分布式文件系统，例如HDFS
        在实现层面，写检查点的过程是一个独立job，作为后台作业运行