Spark 处理框架

一、 Spark VS Hadoop

  • Hadoop MapReduce局限性

    • 表达能力有限
      • 计算必须转为map和reduce函数,这并不适合所有的情况,无法直接用join等操作
    • 磁盘IO开销大(单个job)
      • 输入、输出及shuffle中间结果都需要读写磁盘
    • 延迟高(多个job)
      • 一次计算可能需要分解成一系列按顺序执行的MapReduce任务,任务之间的衔接由于涉及到IO开销,会产生较高延迟。
      • 有依赖关系:job之间的衔接涉及IO开销
        • 迭代计算过程中每一迭代结束时都会将结果写入HDFS,下一步将该结果再次从HDFS读出
          Spark处理框架
      • 无依赖关系:在前一个job执行完成之前,其他job依然无法开始
        Spark处理框架
  • Spark的改进:

    • 表达能力有限
      • 并不局限于Map和Reduce操作,还提供了多种数据集操作类型,如增加join等更多复杂的函数,可以串联为DAG
      • 磁盘IO开销大(单个job)
        • 非shuffle阶段避免中间结果写磁盘
        • 尽量避免中间结果写磁盘,即利用内存(但是还是会使用磁盘的)
      • 延迟高(多个job作为一整个job)
        • 基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制。
        • 将原来的多个job作为一个job的多个阶段
          • 有依赖关系:各个阶段的衔接尽量(优先使用)写内存
          • 无依赖关系:多个阶段可以同时执行

    注:一开始spark完全依赖于内存,但有时候内存爆掉,效果不好,因此就引入磁盘

  • spark特点:

    • 运行速度快:
      • DAG执行引擎 支持循环数据流与内存计算(要由于hadoop mapreduce的迭代执行)
    • 容易使用:
      • 支持使用Scala、java、Python和R语言,可以通过Spark Shell进行交互式
    • 通用性
      • spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件。
    • 运行模式多样:
      • 可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS等多种数据源。
  • Spark与Hadoop的对比

    • spark同时支持批处理、交互式查询和流数据处理。
    • spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活。
    • spark提供了内存计算,可将迭代过程中的结果放到内存中,对于迭代运算效率更高。
      • spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制。
  • Spark和Hadoop的执行流程

    • hadoop输入输出都是文件
    • Spark读取内存:对文件增加一些信息,文件从哪里来(为了从内存中读),对文件包装一下
    • Spark处理框架
  1. spark生态系统主要组件:
    • Spark Core: 包含spark的基本功能,主要面向批数据处理。 : 如MapReduce
    • Spark SQL: 基于历史数据的交互式查询
    • Spark Streaming:基于实时数据流的数据处理 : 如storm
    • MLlib:基于历史数据的数据挖掘 (机器学习) : 如Mahout
    • GraphX:图结构数据的处理 : 如Pregel、Hama

二、 RDD抽象

  • RDD概念:

    • Spark的核心是建立在统一的抽象RDD上的,使得Spark的各个组件可以无缝地进行集成,在同一个应用程序中完成大数据计算任务。

    • RDD提供了一个抽象的数据结构,我们不必担心底层数据的分布式特性,只需将具体的应用逻辑表达为一系列转换处理,不同RDD之间的转换操作形成依赖关系,可以实现管道化,从而避免了中间结果的存储,大大降低了数据复制、磁盘IO和序列化开销。

    • RDD:Redilient Distributed Dataset (弹性分布式数据集)

      • 可恢复的记录分区的数据集合
      • 分布式内存的一个抽象概念
      • 数据集本身有一定能力做恢复
      • 提供了一个高度受限的共享内存模型
      • Redilient:基于可恢复的容错特性
      • Distributed:每个RDD可分成多个分区,一个RDD的不同分区可以存到集群中不同的节点上。
      • Dataset:每个分区就是一个数据集片段
    • DAG:是有向无环图的简称,反映RDD之间的依赖关系

    • RDD特性:

      • RDD只读(Immutable)
        • 本质上一个只读的对象集合
        • 不能修改
        • 只能基于稳定的物理存储中的数据集创建RDD
        • 通过在其他RDD上执行确定的转换操作(如map、join和group by)而得到新的RDD。
      • RDD支持运算操作(map、reduce、自定义)
        • 转换:描述RDD的转换逻辑(map,reduce,join)
        • 动作:标志转换结束,触发DAG生成(依赖图)
          • 惰性求值:只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作。之前,spark只是记录了RDD之间的生成和依赖关系。
            Spark处理框架
  • RDD运算操作:

    • 都是组粒度的数据转换操作。
      Spark处理框架
  • RDD Lineage

    • 即DAG拓扑结构
      • RDD读入外部数据源进行创建
      • RDD经过一系列的转换(Transformation)操作,每一次都会产生不同的RDD,供给下一个转换操作使用
      • 最后一个RDD经过“动作”操作进行转换,并输出到外部数据源
    • 采用惰性调用,一系列RDD操作可以实现管道化,避免了多次转换操作之间数据同步的等待,一个操作得到的结果不需要保存为中间数据,而是直接管道式地流入到下一个操作进行处理。
  • RDD特性

    • 高效的容错性
    • 数据只读,不可修改,因为不需要通过数据冗余的方式(比如检查点)实现容错
    • 通过RDD父子依赖关系重新计算得到丢失的分区来实现容错,无需回滚整个系统,避免数据复制的高开销,而且重算过程可以在不同节点之间并行进行;
      • RDD提供的转换操作都是一些粗粒度的操作
    • 中间结果持久化到内存
      • 避免了不必要的读写磁盘开销
    • 存放的数据可以是Java对象,避免不必要的对象序列化和范序列化开销
  • RDD之间的依赖关系

    • 窄依赖:

      • 表现为一个父RDD的分区对应于一个子RDD的分区,或者多个父RDD的分区对应于一个子RDD的分区
      • 典型的操作:map,filter,union
    • 宽依赖:

      • 表现为存在一个父RDD的一个分区对应一个子RDD的多个分区典型的操作:groupByKey,sortByKey
      • Join操作
        • 窄依赖: 对输入进行协同操作
          • 指多个父RDD的某一分区的所有“键”落在子RDD的同一个分区内,不会产生同一个父RDD的某一分区落在子RDD的两个分区的情况(如 a)
        • 宽依赖:对输入做非协同划分 (如b)
          Spark处理框架
    • 窄依赖 子分区丢失

      • 只需要根据父RDD分区重新计算丢失的分区即可
    • 宽依赖 子分区丢失

      • 会涉及多个父RDD分区
    • 最优的恢复策略:

      • 在 检查点开销 和 重新计算RDD 之间进行比较
  • 划分阶段

    • spark分析各个RDD的偏序关系生成DAG,再通过分析各个RDD中的分区之间的依赖关系来决定如何划分Stage

    • 具体划分方法:

      • 在DAG中进行反向解析,遇到宽依赖就断开
      • 遇到窄依赖就把当前的RDD加入到Stage中
      • 将窄依赖尽量划分在同一个Stage中,可以实现流水线计算 pipeline
        Spark处理框架
    • 把一个DAG图划分成多个阶段以后,每个阶段都代表了一组关联的、相互之间没有shuffle依赖关系的任务组成的任务集合。每个任务集合会被提交给任务调度器进行处理,由任务调度器将任务分发给Executor运行。

      • Stage类型
        • ShuffleMapStage

          • 输入/输出
            • 输入边界可以是从外部获取数据,也可以是另一个ShuffleMapStage的输出
            • 以Shuffle为输出边界,作为另一个Stage开始
          • 特点:
            • 不是最终的Stage,在它之后还有其他Stage
            • 它的输出一定需要经过Shuffle过程,并作为后续Stage的输入
            • 在一个Job里可能有该类型的Stage,也可能没有该类型Stage
        • ResultStage

          • 输入/输出
            • 其输入边界可以是从外部获取数据,也可以是另一个ShuffleMapStage的输出
            • 输出直接产生结果或存储
          • 特点:
            • 在一个Job里必定有该类型Stage
            • 最终的Stage

      因此,一个DAG含有一个或多个Stage,其中至少含有一个ResultStage

三、体系结构

  • Spark架构图
    Spark处理框架

  • 架构设计

    • Master :管理整个系统
      • 集群资源管理器(Cluster Manager)

      • 资源管理器可以自带或Mesos或YARN

        • Worker:运行作业的工作节点

          • 负责任务执行的进程(Executor)
            • 利用多线程来执行具体的任务(mapreduce采用的是进程模型)
            • executor中有一个blockmanager存储模块,会将内存和磁盘共同作为存储设备
          • 负责任务执行的线程(Task)
        • Application:用户编写的Spark应用程序

        • Job:一个Job包含多个RDD及作用于相应RDD上的各种操作

        • Stage:一个Job会分为多组Task,每组Task被称为Stage,或者也被称为TaskSet

          • Job的基本调度单位
          • 代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集
        • Task:运行在Executor上的工作单元

      • 一个应用由一个Driver和若干个Job构成,一个job由多个taskset构成,一个taskset由多个task构成。

      • 当执行一个应用时,driver向cluster manager申请资源,启动executor,并向executor发送应用程序代码和文件,然后在executor上执行任务。

  • 作业与任务
    Spark处理框架
    Spark处理框架

四、 工作流程
Spark处理框架
Spark处理框架

Spark处理框架

  • Spark Executor
    • 与MapReduce相比,Spark所采用的Executor有两个优点:
      • 利用多线程来执行具体的任务,减少任务的启动开销
      • Executor中有一个BlockManager存储模块,会将内存和磁盘共同作为存储设备,有效减少IO开销
        Spark处理框架
    • DAG运行过程:
      1. 创建RDD对象
      2. SparkContext负责计算RDD之间的依赖关系,构建DAG
        DAGScheduler负责把DAG图分解成多个Stage,每个Stage中包含了多个Task,每个Task会被TaskScheduler分发给各个WorkerNode上的Executor去执行。
        Spark处理框架

五、 容错机制

  • Master故障
    • 通过zookeeper恢复
  • Worker故障
    • Lineage机制
      • 窄依赖(narrow dependency)

        • 执行某个partition时,检查父亲RDD对应的partition是否存在
          • 存在,即可执行当前RDD对应的操作
          • 不存在,则重构父亲RDD对应的partition
      • 宽依赖(wide dependency)

        • 执行某个partition时,检查父亲RDD对应的partition是否存在
          • 存在,即可执行当前RDD对应的操作
          • 不存在,则重构整个父亲RDD
        • RDD存储机制
          • 血缘关系,重算过程在不同节点之间并行,只记录粗粒度的操作
          • RDD提供的持久化(缓存)接口
            • persist():对一个RDD标记为持久化
            • 接受StorageLevel类型参数,可配置各种级别
            • 持久化后的RDD将会被保留在计算节点的中被后面的行动操作重复使用
          • cache()
            • 相当于persist(MEMORY_ONLY)
          • unpersist()
            • 手动地把持久化的RDD从缓存中移除
              Spark处理框架
              Spark处理框架
              Spark处理框架
              Spark处理框架
      • 检查点机制

        • 前述机制的不足之处
          • Lineage可能非常长
          • RDD存储机制主要面向本地磁盘的存储
            • 检查点机制将RDD写入可靠的外部分布式文件系统,例如HDFS
              在实现层面,写检查点的过程是一个独立job,作为后台作业运行

相关文章: