单NameNode的架构使得HDFS在集群扩展性和性能上都有潜在的问题,当集群大到一定程度
后,NameNode进程使用的内存可能会达到上百G,NameNode成为了性能的瓶颈。因而提出
了namenode水平扩展方案-- Federation。
Federation中文意思为联邦,联盟,是NameNode的Federation,也就是会有多个NameNode。多
个NameNode的情况意味着有多个namespace(命名空间),区别于HA模式下的多NameNode,
它们是拥有着同一个namespace。既然说到了NameNode的命名空间的概念,这里就看一下现有
的HDFS数据管理架构,如下图所示:
从上图中,我们可以很明显地看出现有的HDFS数据管理,数据存储2层分层的结构.也就是说,所有
关于存储数据的信息和管理是放在NameNode这边,而真实数据的存储则是在各个DataNode下.
而这些隶属于同一个NameNode所管理的数据都是在同一个命名空间下的.而一个namespace对
应一个block pool。Block Pool是同一个namespace下的block的集合.当然这是我们最常见的单
个namespace的情况,也就是一个NameNode管理集群中所有元数据信息的时候.如果我们遇到
了之前提到的NameNode内存使用过高的问题,这时候怎么办?元数据空间依然还是在不断增大,
一味调高NameNode的jvm大小绝对不是一个持久的办法.这时候就诞生了HDFS Federation的机
制.
Federation架构设计
HDFS Federation是解决namenode内存瓶颈问题的水平横向扩展方案。
Federation意味着在集群中将会有多个namenode/namespace。这些namenode之间是联合的,
也就是说,他们之间相互独立且不需要互相协调,各自分工,管理自己的区域。分布式的
datanode被用作通用的数据块存储存储设备。每个datanode要向集群中所有的namenode注
册,且周期性地向所有namenode发送心跳和块报告,并执行来自所有namenode的命令。