目录

1、HDFS概述

2、HDFS基本结构

3、Block的副本放置策略

4、主要组件及其功能

5、数据损坏(corruption)处理

6、HDFS网络拓扑结构

7、实例分析


1、HDFS概述

定义:Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件。

2、HDFS基本结构

  1. Client:客户端
  2. NameNode:记录元数据,主要功能是对内存及IO进行集中管理。
  3. DataNode:文件系统的工作节点,根据需要存储和检索数据块,并且定期向namenode发送他们所存储的块的列表。
  4. Secondary NameNode:定期保存HDFS元数据的快照。

Hadoop和HA

3、Block的副本放置策略

  • 第一个副本:放置在上传文件的DN;如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点。
  • 第二个副本:放置在于第一个副本不同的机架的节点上。
  • 第三个副本:与第二个副本相同集群的节点。
  • 更多副本:随机节点。

4、主要组件及其功能

NameNode DataNode
存储元数据 存储文件内容
元数据保存在内存 文件内容保存在磁盘
保存文件,block,datanode之间的映射关系 维护了block id到datanode本地文件的映射关系

5、数据损坏(corruption)处理

Hadoop和HA

6、HDFS网络拓扑结构

Hadoop和HA

案例说明:

Hadoop和HA

7、实例分析

  • 写文件到HDFS中

Hadoop和HA

  • Hadoop的Rack Aeareness

Hadoop和HA

  • 写HDFS的准备过程

Hadoop和HA

  • 管道写方式

Hadoop和HA

Hadoop和HA

  • 多个块的复制

Hadoop和HA

  • 重新复制丢失的副本

Hadoop和HA

相关文章:

  • 2022-12-23
  • 2022-01-21
  • 2021-07-06
  • 2022-12-23
  • 2022-12-23
  • 2021-04-16
  • 2021-07-17
  • 2021-11-21
猜你喜欢
  • 2021-12-15
  • 2022-12-23
  • 2021-10-31
  • 2022-02-06
  • 2022-01-22
相关资源
相似解决方案