HDFS介绍
起初,随着数据量的越来越大,通过纵向扩展(在一台机器中加磁盘)的形式已经不能满足需要,所以开始横向扩展(用多台机器进行数据存储)。为了方便管理和维护,分布式文件存储管理系统应运而生,HDFS就是其中之一。
HDFS架构原理
架构图如下图所示
分布式文件系统的存储特点:切块存储
HDFS主要由两部分组成
- namenode
- datanode
namenode
- 主要是用来管理整个分布式文件系统的元数据信息,比如文件名、文件大小、文件块数、每个块大小、每个块的存储位置以及块id等。
- 通过RPC心跳机制来检测datanode节点的状态信息
secondary namenode
- 并不是namenode的热备,当namenode宕机时并不能立刻代替namenode进行工作
关于seconddary namenode可以看下面这篇文章
Secondary NameNode:它究竟有什么作用?
datanode
- 为了实现数据的可靠性,引入副本冗余机制,副本数量不易过多,因为副本数量越多,整个集群的磁盘利用率就会越低。比如:2副本策略:50%,3副本策略:33.3%
关于HDFS的比较详细的原理解释可以看下面这篇文章
HDFS核心技术详解