Hadoop和HA

目录

2、HDFS基本结构

3、Block的副本放置策略

4、主要组件及其功能

5、数据损坏(corruption)处理

6、HDFS网络拓扑结构

7、实例分析

1、HDFS概述

定义：Hadoop分布式文件系统（Hadoop Distributed Filesystem），以流式数据访问模式来存储超大文件。

2、HDFS基本结构

Client：客户端
NameNode：记录元数据，主要功能是对内存及IO进行集中管理。
DataNode：文件系统的工作节点，根据需要存储和检索数据块，并且定期向namenode发送他们所存储的块的列表。
Secondary NameNode：定期保存HDFS元数据的快照。

Hadoop和HA

3、Block的副本放置策略

第一个副本：放置在上传文件的DN；如果是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点。
第二个副本：放置在于第一个副本不同的机架的节点上。
第三个副本：与第二个副本相同集群的节点。
更多副本：随机节点。

4、主要组件及其功能

NameNode	DataNode
存储元数据	存储文件内容
元数据保存在内存中	文件内容保存在磁盘
保存文件，block，datanode之间的映射关系	维护了block id到datanode本地文件的映射关系

5、数据损坏(corruption)处理

Hadoop和HA

6、HDFS网络拓扑结构

Hadoop和HA

案例说明：

Hadoop和HA

7、实例分析

写文件到HDFS中

Hadoop和HA

Hadoop的Rack Aeareness

Hadoop和HA

写HDFS的准备过程

Hadoop和HA

管道写方式

Hadoop和HA

Hadoop和HA

多个块的复制

Hadoop和HA

重新复制丢失的副本

Hadoop和HA

相关文章：

2022-12-23
2022-01-21
2021-07-06
2022-12-23
2022-12-23
2021-04-16
2021-07-17
2021-11-21

猜你喜欢

2021-12-15
2022-12-23
2021-10-31
2022-02-06
2022-01-22

相关资源

下载 2023-01-24
下载 2021-11-02
下载 2022-12-27
下载 2023-02-06

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode