BigData2：Hadoop之HDFS核心技术解析

HDFS介绍

起初，随着数据量的越来越大，通过纵向扩展（在一台机器中加磁盘）的形式已经不能满足需要，所以开始横向扩展（用多台机器进行数据存储）。为了方便管理和维护，分布式文件存储管理系统应运而生，HDFS就是其中之一。

HDFS架构原理

架构图如下图所示
BigData2：Hadoop之HDFS核心技术解析
分布式文件系统的存储特点：切块存储

HDFS主要由两部分组成

namenode
datanode

namenode

主要是用来管理整个分布式文件系统的元数据信息，比如文件名、文件大小、文件块数、每个块大小、每个块的存储位置以及块id等。
通过RPC心跳机制来检测datanode节点的状态信息

secondary namenode

并不是namenode的热备，当namenode宕机时并不能立刻代替namenode进行工作

关于seconddary namenode可以看下面这篇文章
Secondary NameNode:它究竟有什么作用？

datanode

为了实现数据的可靠性，引入副本冗余机制，副本数量不易过多，因为副本数量越多，整个集群的磁盘利用率就会越低。比如：2副本策略：50%，3副本策略：33.3%

关于HDFS的比较详细的原理解释可以看下面这篇文章
HDFS核心技术详解

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode