【1.1】spark on yarn 模式

1、基于yarn-client模式

（1）Hadoop集群启动，NodeManager（NM）向ResourceManager（RM）通信，汇报各自资源，RM掌握集群资源

（2）client上提交spark应用，同时启动Driver，client向RM申请资源，启动ApplicationMaster(AM)

（3）RM在随机选择集群中的一个NM，来启动AM，AM向RM申请资源启动Executor，RM分配资源给NM启动Executor

（4）Executor通知Driver，Driver发送task给Executor，Executor执行完成，返回结果给Driver

2、基于yarn-cluster模式

【1.1】spark on yarn 模式

yarn-cluste和yarn-client不同的是，client提交任务后，不会再启动Driver，而是RM在集群中找一台节点，即NM上启动Driver，把Driver分散在集群节点中运行，这样避免了client上提交多个任务而引起的网络流量激增问题。client上没有Driver 进程，也看不到task执行情况，以及接收不到输出结果。
---------------------
作者：未知的风fly
来源：CSDN
原文：https://blog.csdn.net/lzxlfly/article/details/80979144
版权声明：本文为博主原创文章，转载请附上博文链接！