Spark----SparkContext解析

SparkContext解析

SparkContext是用户通往Spark集群的唯一入口，任何需要使用Spark的地方都需要先创建SparkContext，那么SparkContext做了什么？

首先SparkContext是在Driver程序里面启动的，可以看做Driver程序和Spark集群的一个连接，SparkContext在初始化的时候，创建了很多对象：

上图列出了SparkContext在初始化创建的时候的一些主要组件的构建。

创建过程如下：

Spark----SparkContext解析

SparkContext在新建时

内部创建一个SparkEnv，SparkEnv内部创建一个RpcEnv
1. RpcEnv内部创建并注册一个MapOutputTrackerMasterEndpoint（该Endpoint暂不介绍）
接着创建DAGScheduler，TaskSchedulerImpl，SchedulerBackend
1. TaskSchedulerImpl创建时创建SchedulableBuilder，SchedulableBuilder根据类型分为FIFOSchedulableBuilder,FairSchedulableBuilder两类
最后启动TaskSchedulerImpl，TaskSchedulerImpl启动SchedulerBackend
1. SchedulerBackend启动时创建ApplicationDescription，DriverEndpoint, StandloneAppClient
2. StandloneAppClient内部包括一个ClientEndpoint

Spark----SparkContext解析

SparkContext：是用户Spark执行任务的上下文，用户程序内部使用Spark提供的Api直接或间接创建一个SparkContext
SparkEnv：用户执行的环境信息，包括通信相关的端点
RpcEnv：SparkContext中远程通信环境
ApplicationDescription：应用程序描述信息，主要包含appName, maxCores, memoryPerExecutorMB, coresPerExecutor, Command（
CoarseGrainedExecutorBackend）, appUiUrl等
ClientEndpoint：客户端端点，启动后向Master发起注册RegisterApplication请求
Master：接受RegisterApplication请求后，进行Worker资源分配，并向分配的资源发起LaunchExecutor指令
Worker：接受LaunchExecutor指令后，运行ExecutorRunner
ExecutorRunner：运行applicationDescription的Command命令，最终Executor，同时向DriverEndpoint注册Executor信息

当Master接受Driver的RegisterApplication请求后，放入waitingDrivers队列中，在同一调度中进行资源分配，分配过程如下：

Spark----SparkContext解析

waitingApps与aliveWorkers进行资源匹配

如果waitingApp配置了app.desc.coresPerExecutor：
1. 轮询所有有效可分配的worker，每次分配一个executor，executor的核数为minCoresPerExecutor(app.desc.coresPerExecutor)，直到不存在有效可分配资源或者app依赖的资源已全部被分配
如果waitingApp没有配置app.desc.coresPerExecutor：
1. 轮询所有有效可分配的worker，每个worker分配一个executor，executor的核数为从minCoresPerExecutor(为固定值1)开始递增，直到不存在有效可分配资源或者app依赖的资源已全部被分配
其中有效可分配worker定义为满足一次资源分配的worker:
1. cores满足：usableWorkers(pos).coresFree - assignedCores(pos) >= minCoresPerExecutor，
2. memory满足(如果是新的Executor)：usableWorkers(pos).memoryFree - assignedExecutors(pos) * memoryPerExecutor >= memoryPerExecutor

注意：Master针对于applicationInfo进行资源分配时，只有存在有效可用的资源就直接分配，而分配剩余的app.coresLeft则等下一次再进行分配

Spark----SparkContext解析

（图解：橙色组件是Endpoint组件）

Worker启动Executor

ExecutorRnner

新线程【ExecutorRunner for [executorId]】读取ApplicationDescription将其中Command转化为本地的Command命令
调用Command并将日志输出至executor目录下的stdout,stderr日志文件中，Command对应的java类为CoarseGrainedExecutorBackend

CoarseGrainedExecutorBackend

至此，Spark运行任务的容器框架就搭建完成。