Spark内核分析之BlockManager工作原理介绍

 

 在DAGShceduler中有一个BlockManagerMaster对象,该对象的工作就是负责管理全局所有BlockManager的元数据,当集群中有BlockManager注册完成的时候,其会向BlockManagerMaster发送自己元数据信息;BlockManagerMaster会为BlockManager创建一个属于这个BlockManager的BlockManagerInfo,用于存放BlockManager的信息。

简单介绍一下BlockManager主要的几个组件;

DiskStore:负责磁盘存储

MemoryStore:负责内存存储

BlockManagerWorker:负责接收相关请求并执行任务

ConnectionManager:负责与其他BlockManager建立连接

下面我们来看看shuffle write和shuffle read的工作原理;

当Spark作业进行持久化或Shuffle等操作的时候,会出发BlockManager进行写操作;比如执行persist操作的时候,就会出发数据持久化的操作,数据会优先进入到内存,当内存不足,会将数据持久化到磁盘。此时如果指定了replicate,那么数据会通过BlockManagerWorker复制一份到其他节点上去。

Shuffle Read工作原理

当Spark作业的某个算子触发读取数据的操作,首先,会在该算子所在的BlockManager读取数据,如果本地没有数据,BlockManagerWorker会通知ConnectionManager,后者通过向其他BlockManager的ConnectionManager建立连接,然后本节点向建立连接的BlockManager节点拉取数据;当BlockManager的相关信息发生变化的时候,BlockManager会通过Actor向BlockManagerMaster发送改变信息,BlockManagerInfo内部的BlockStatus会相应地改变相应地状态。

总结:以上对BlockManager的工作原理做简单介绍,从而理清数据在各个算子之间是如何存储和传递的;由于源码比较庞大,所以请感兴趣的小伙伴们自行去研究相关源码;欢迎关注。

相关文章:

  • 2021-08-21
  • 2021-11-30
  • 2021-08-05
  • 2021-11-08
  • 2021-11-07
  • 2021-05-25
  • 2021-09-10
  • 2023-03-19
猜你喜欢
  • 2022-02-18
  • 2021-10-05
  • 2021-12-18
  • 2021-11-20
  • 2022-01-05
  • 2021-10-31
  • 2021-10-14
相关资源
相似解决方案