Spark 处理框架
一、 Spark VS Hadoop
-
Hadoop MapReduce局限性
- 表达能力有限
- 计算必须转为map和reduce函数,这并不适合所有的情况,无法直接用join等操作
- 磁盘IO开销大(单个job)
- 输入、输出及shuffle中间结果都需要读写磁盘
- 延迟高(多个job)
- 一次计算可能需要分解成一系列按顺序执行的MapReduce任务,任务之间的衔接由于涉及到IO开销,会产生较高延迟。
- 有依赖关系:job之间的衔接涉及IO开销
- 迭代计算过程中每一迭代结束时都会将结果写入HDFS,下一步将该结果再次从HDFS读出
- 迭代计算过程中每一迭代结束时都会将结果写入HDFS,下一步将该结果再次从HDFS读出
- 无依赖关系:在前一个job执行完成之前,其他job依然无法开始
- 表达能力有限
-
Spark的改进:
- 表达能力有限
- 并不局限于Map和Reduce操作,还提供了多种数据集操作类型,如增加join等更多复杂的函数,可以串联为DAG
- 磁盘IO开销大(单个job)
- 非shuffle阶段避免中间结果写磁盘
- 尽量避免中间结果写磁盘,即利用内存(但是还是会使用磁盘的)
- 延迟高(多个job作为一整个job)
- 基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制。
- 将原来的多个job作为一个job的多个阶段
- 有依赖关系:各个阶段的衔接尽量(优先使用)写内存
- 无依赖关系:多个阶段可以同时执行
注:一开始spark完全依赖于内存,但有时候内存爆掉,效果不好,因此就引入磁盘
- 表达能力有限
-
spark特点:
- 运行速度快:
- DAG执行引擎 支持循环数据流与内存计算(要由于hadoop mapreduce的迭代执行)
- 容易使用:
- 支持使用Scala、java、Python和R语言,可以通过Spark Shell进行交互式
- 通用性
- spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件。
- 运行模式多样:
- 可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS等多种数据源。
- 运行速度快:
-
Spark与Hadoop的对比
- spark同时支持批处理、交互式查询和流数据处理。
- spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活。
- spark提供了内存计算,可将迭代过程中的结果放到内存中,对于迭代运算效率更高。
- spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制。
-
Spark和Hadoop的执行流程
- hadoop输入输出都是文件
- Spark读取内存:对文件增加一些信息,文件从哪里来(为了从内存中读),对文件包装一下
- spark生态系统主要组件:
- Spark Core: 包含spark的基本功能,主要面向批数据处理。 : 如MapReduce
- Spark SQL: 基于历史数据的交互式查询
- Spark Streaming:基于实时数据流的数据处理 : 如storm
- MLlib:基于历史数据的数据挖掘 (机器学习) : 如Mahout
- GraphX:图结构数据的处理 : 如Pregel、Hama
二、 RDD抽象
-
RDD概念:
-
Spark的核心是建立在统一的抽象RDD上的,使得Spark的各个组件可以无缝地进行集成,在同一个应用程序中完成大数据计算任务。
-
RDD提供了一个抽象的数据结构,我们不必担心底层数据的分布式特性,只需将具体的应用逻辑表达为一系列转换处理,不同RDD之间的转换操作形成依赖关系,可以实现管道化,从而避免了中间结果的存储,大大降低了数据复制、磁盘IO和序列化开销。
-
RDD:Redilient Distributed Dataset (弹性分布式数据集)
- 可恢复的记录分区的数据集合
- 分布式内存的一个抽象概念
- 数据集本身有一定能力做恢复
- 提供了一个高度受限的共享内存模型
- Redilient:基于可恢复的容错特性
- Distributed:每个RDD可分成多个分区,一个RDD的不同分区可以存到集群中不同的节点上。
- Dataset:每个分区就是一个数据集片段
-
DAG:是有向无环图的简称,反映RDD之间的依赖关系
-
RDD特性:
- RDD只读(Immutable)
- 本质上一个只读的对象集合
- 不能修改
- 只能基于稳定的物理存储中的数据集创建RDD
- 通过在其他RDD上执行确定的转换操作(如map、join和group by)而得到新的RDD。
- RDD支持运算操作(map、reduce、自定义)
- 转换:描述RDD的转换逻辑(map,reduce,join)
- 动作:标志转换结束,触发DAG生成(依赖图)
- 惰性求值:只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作。之前,spark只是记录了RDD之间的生成和依赖关系。
- 惰性求值:只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作。之前,spark只是记录了RDD之间的生成和依赖关系。
- RDD只读(Immutable)
-
-
RDD运算操作:
- 都是组粒度的数据转换操作。
- 都是组粒度的数据转换操作。
-
RDD Lineage
- 即DAG拓扑结构
- RDD读入外部数据源进行创建
- RDD经过一系列的转换(Transformation)操作,每一次都会产生不同的RDD,供给下一个转换操作使用
- 最后一个RDD经过“动作”操作进行转换,并输出到外部数据源
- 采用惰性调用,一系列RDD操作可以实现管道化,避免了多次转换操作之间数据同步的等待,一个操作得到的结果不需要保存为中间数据,而是直接管道式地流入到下一个操作进行处理。
- 即DAG拓扑结构
-
RDD特性
- 高效的容错性
- 数据只读,不可修改,因为不需要通过数据冗余的方式(比如检查点)实现容错
- 通过RDD父子依赖关系重新计算得到丢失的分区来实现容错,无需回滚整个系统,避免数据复制的高开销,而且重算过程可以在不同节点之间并行进行;
- RDD提供的转换操作都是一些粗粒度的操作
- 中间结果持久化到内存
- 避免了不必要的读写磁盘开销
- 存放的数据可以是Java对象,避免不必要的对象序列化和范序列化开销
-
RDD之间的依赖关系
-
窄依赖:
- 表现为一个父RDD的分区对应于一个子RDD的分区,或者多个父RDD的分区对应于一个子RDD的分区
- 典型的操作:map,filter,union
-
宽依赖:
- 表现为存在一个父RDD的一个分区对应一个子RDD的多个分区典型的操作:groupByKey,sortByKey
- Join操作
- 窄依赖: 对输入进行协同操作
- 指多个父RDD的某一分区的所有“键”落在子RDD的同一个分区内,不会产生同一个父RDD的某一分区落在子RDD的两个分区的情况(如 a)
- 宽依赖:对输入做非协同划分 (如b)
- 窄依赖: 对输入进行协同操作
-
窄依赖 子分区丢失
- 只需要根据父RDD分区重新计算丢失的分区即可
-
宽依赖 子分区丢失
- 会涉及多个父RDD分区
-
最优的恢复策略:
- 在 检查点开销 和 重新计算RDD 之间进行比较
-
-
划分阶段
-
spark分析各个RDD的偏序关系生成DAG,再通过分析各个RDD中的分区之间的依赖关系来决定如何划分Stage
-
具体划分方法:
- 在DAG中进行反向解析,遇到宽依赖就断开
- 遇到窄依赖就把当前的RDD加入到Stage中
- 将窄依赖尽量划分在同一个Stage中,可以实现流水线计算 pipeline
-
把一个DAG图划分成多个阶段以后,每个阶段都代表了一组关联的、相互之间没有shuffle依赖关系的任务组成的任务集合。每个任务集合会被提交给任务调度器进行处理,由任务调度器将任务分发给Executor运行。
- Stage类型
-
ShuffleMapStage
- 输入/输出
- 输入边界可以是从外部获取数据,也可以是另一个ShuffleMapStage的输出
- 以Shuffle为输出边界,作为另一个Stage开始
- 特点:
- 不是最终的Stage,在它之后还有其他Stage
- 它的输出一定需要经过Shuffle过程,并作为后续Stage的输入
- 在一个Job里可能有该类型的Stage,也可能没有该类型Stage
- 输入/输出
-
ResultStage
- 输入/输出
- 其输入边界可以是从外部获取数据,也可以是另一个ShuffleMapStage的输出
- 输出直接产生结果或存储
- 特点:
- 在一个Job里必定有该类型Stage
- 最终的Stage
- 输入/输出
-
因此,一个DAG含有一个或多个Stage,其中至少含有一个ResultStage
- Stage类型
-
三、体系结构
-
Spark架构图
-
架构设计
- Master :管理整个系统
-
集群资源管理器(Cluster Manager)
-
资源管理器可以自带或Mesos或YARN
-
Worker:运行作业的工作节点
- 负责任务执行的进程(Executor)
- 利用多线程来执行具体的任务(mapreduce采用的是进程模型)
- executor中有一个blockmanager存储模块,会将内存和磁盘共同作为存储设备
- 负责任务执行的线程(Task)
- 负责任务执行的进程(Executor)
-
Application:用户编写的Spark应用程序
-
Job:一个Job包含多个RDD及作用于相应RDD上的各种操作
-
Stage:一个Job会分为多组Task,每组Task被称为Stage,或者也被称为TaskSet
- Job的基本调度单位
- 代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集
-
Task:运行在Executor上的工作单元
-
-
一个应用由一个Driver和若干个Job构成,一个job由多个taskset构成,一个taskset由多个task构成。
-
当执行一个应用时,driver向cluster manager申请资源,启动executor,并向executor发送应用程序代码和文件,然后在executor上执行任务。
-
- Master :管理整个系统
-
作业与任务
四、 工作流程
- Spark Executor
- 与MapReduce相比,Spark所采用的Executor有两个优点:
- 利用多线程来执行具体的任务,减少任务的启动开销
- Executor中有一个BlockManager存储模块,会将内存和磁盘共同作为存储设备,有效减少IO开销
- DAG运行过程:
- 创建RDD对象
- SparkContext负责计算RDD之间的依赖关系,构建DAG
DAGScheduler负责把DAG图分解成多个Stage,每个Stage中包含了多个Task,每个Task会被TaskScheduler分发给各个WorkerNode上的Executor去执行。
- 与MapReduce相比,Spark所采用的Executor有两个优点:
五、 容错机制
- Master故障
- 通过zookeeper恢复
- Worker故障
- Lineage机制
-
窄依赖(narrow dependency)
- 执行某个partition时,检查父亲RDD对应的partition是否存在
- 存在,即可执行当前RDD对应的操作
- 不存在,则重构父亲RDD对应的partition
- 执行某个partition时,检查父亲RDD对应的partition是否存在
-
宽依赖(wide dependency)
- 执行某个partition时,检查父亲RDD对应的partition是否存在
- 存在,即可执行当前RDD对应的操作
- 不存在,则重构整个父亲RDD
- RDD存储机制
- 血缘关系,重算过程在不同节点之间并行,只记录粗粒度的操作
- RDD提供的持久化(缓存)接口
- persist():对一个RDD标记为持久化
- 接受StorageLevel类型参数,可配置各种级别
- 持久化后的RDD将会被保留在计算节点的中被后面的行动操作重复使用
- cache()
- 相当于persist(MEMORY_ONLY)
- unpersist()
- 手动地把持久化的RDD从缓存中移除
- 手动地把持久化的RDD从缓存中移除
- 执行某个partition时,检查父亲RDD对应的partition是否存在
-
检查点机制
- 前述机制的不足之处
- Lineage可能非常长
- RDD存储机制主要面向本地磁盘的存储
- 检查点机制将RDD写入可靠的外部分布式文件系统,例如HDFS
在实现层面,写检查点的过程是一个独立job,作为后台作业运行
- 检查点机制将RDD写入可靠的外部分布式文件系统,例如HDFS
- 前述机制的不足之处
-
- Lineage机制