RDD底层实现原理
RDD是一个分布式数据集,顾名思义,其数据应该分部存储于多台机器上。事实上,每个RDD的数据都以Block的形式存储于多台机器上,下图是Spark的RDD存储架构图,其中每个Executor会启动一个BlockManagerSlave,并管理一部分Block;而Block的元数据由Driver节点的BlockManagerMaster保存。BlockManagerSlave生成Block后向BlockManagerMaster注册该Block,BlockManagerMaster管理RDD与Block的关系,当RDD不再需要存储的时候,将向BlockManagerSlave发送指令删除相应的Block。
RDD底层实现原理

相关文章:

  • 2021-11-29
  • 2021-06-24
  • 2021-05-28
  • 2021-05-10
  • 2021-05-06
猜你喜欢
  • 2021-09-27
  • 2021-10-01
  • 2022-01-08
  • 2022-01-08
  • 2021-11-21
  • 2022-01-03
相关资源
相似解决方案