HDFS介绍

起初,随着数据量的越来越大,通过纵向扩展(在一台机器中加磁盘)的形式已经不能满足需要,所以开始横向扩展(用多台机器进行数据存储)。为了方便管理和维护,分布式文件存储管理系统应运而生,HDFS就是其中之一。

HDFS架构原理

架构图如下图所示
BigData2:Hadoop之HDFS核心技术解析
分布式文件系统的存储特点:切块存储

HDFS主要由两部分组成

  • namenode
  • datanode

namenode

  • 主要是用来管理整个分布式文件系统的元数据信息,比如文件名、文件大小、文件块数、每个块大小、每个块的存储位置以及块id等。
  • 通过RPC心跳机制来检测datanode节点的状态信息

secondary namenode

  • 并不是namenode的热备,当namenode宕机时并不能立刻代替namenode进行工作

关于seconddary namenode可以看下面这篇文章
Secondary NameNode:它究竟有什么作用?

datanode

  • 为了实现数据的可靠性,引入副本冗余机制,副本数量不易过多,因为副本数量越多,整个集群的磁盘利用率就会越低。比如:2副本策略:50%,3副本策略:33.3%

关于HDFS的比较详细的原理解释可以看下面这篇文章
HDFS核心技术详解

相关文章: