1、基于yarn-client模式

【1.1】spark on yarn 模式

(1)Hadoop集群启动,NodeManager(NM)向ResourceManager(RM)通信,汇报各自资源,RM掌握集群资源

(2)client上提交spark应用,同时启动Driver,client向RM申请资源,启动ApplicationMaster(AM)

(3)RM在随机选择集群中的一个NM,来启动AM,AM向RM申请资源启动Executor,RM分配资源给NM启动Executor

(4)Executor通知Driver,Driver发送task给Executor,Executor执行完成,返回结果给Driver

2、基于yarn-cluster模式

【1.1】spark on yarn 模式

yarn-cluste和yarn-client不同的是,client提交任务后,不会再启动Driver,而是RM在集群中找一台节点,即NM上启动Driver,把Driver分散在集群节点中运行,这样避免了client上提交多个任务而引起的网络流量激增问题。client上没有Driver 进程,也看不到task执行情况,以及接收不到输出结果。
--------------------- 
作者:未知的风fly 
来源:CSDN 
原文:https://blog.csdn.net/lzxlfly/article/details/80979144 
版权声明:本文为博主原创文章,转载请附上博文链接!

相关文章:

  • 2021-04-02
  • 2021-07-17
  • 2021-11-28
猜你喜欢
  • 2021-09-04
  • 2021-08-20
  • 2018-11-23
  • 2021-07-15
  • 2021-07-30
  • 2021-07-01
相关资源
相似解决方案