Hadoop的一些基础问题（一）

1、HDFS架构包括什么？

HDFS（Hadoop Distribute FileSystem）分布式文件存储系统。它易于扩展的分布式文件系统，而且运行在大量廉价机器上，并且提供容错机制为大量用户提供性能不错的文件存取服务

NameNode

-- NameNode主要功能：

1、接受客户端的读/写服务。

2、接受DN汇报的block位置信息。

-- NameNode保存metadate元信息。

基于内存存储：不会和磁盘发生交换;

metadate元数据信息包括以下：

•文件owership(归属)和permissions(权限)

•文件大小时间

•Block列表[偏移量]：即一个完整文件有哪些block（b0+b1+b2+..=file）

•位置信息=Block每个副本保存在哪个DataNode中（由DataNode启动时上报给NN 因为会随时变化,不保存在磁盘）--动态的!

-- NameNode的metadate信息在启动后会加载到内存

•metadata存储到磁盘文件名为”fsimage”的镜像文件

•Block的位置信息不会保存到fsimage

•edits记录对metadata的操作日志

DataNode

– 存储数据（Block）

– 启动DN线程的时候会向NameNode汇报block位置信息

– 通过向NN发送心跳保持与其联系（3秒一次），如果NN 10分钟没有收到DN的心跳，则认为其已经lost，并copy其上的 block到其它DN

SecondryNode

辅助NameNode 定期合并fsimage和edits -> new fsimage

2、HDFS的优缺点是什么

优点

分布式的特性：

-- 适合大数据处理：GB 、TB 、甚至PB 级及以上的数据

-- 百万规模以上的文件数量:10K+ 节点。

-- 适合批处理：移动计算而非数据(MR),数据位置暴露给计算框架自身特性：

-- HA高可用：可构建在廉价机器上：

-- 高可靠性:通过多副本提提高

-- 高容错性：数据自动保存多个副本；副本丢失后，自动恢复,提供了恢复机制

缺点

--低延迟高数据吞吐访问问题

•比如不支持毫秒级

•吞吐量大但有限制于其延迟

--小文件存取占用NameNode大量内存（寻道时间超过读取时间（99%））

--不支持文件修改：一个文件只能有一个写者（深入）仅支持append不支持修改（其实本身是支持的，主要为了空间换时间，节约成本）

3、SNN是不是NN的备份？为什么

SNN并非是NN的出现故障时候的一个备份，它周期性的清除NN中的文件系统状态信息，使得NN更有效率。

– SNN执行合并时间和机制

•A、根据配置文件设置的时间间隔fs.checkpoint.period 默认3600秒（1小时）

•B、根据配置文件设置edits log大小 fs.checkpoint.size 规定edits文件的最大值默认是64MB

4、文件如何切分和存放的？

文件切分方式

文件被线性切分成固定大小的数据块block

•通过偏移量offset（单位：byte）标记

•默认数据块大小为64MB (hadoop1.x)，可自定义配置

•若文件大小不到64MB ，则单独存成一个block

文件存储方式

•按大小被切分成若干个block ，存储到不同节点上

•默认情况下每个block都有2个副本共3个副本

•副本数不大于节点数

Block大小和副本数通过Client端上传文件时设置，文件上传成功后副本数可以变更，Block Size大小不可变更

Hadoop的一些基础问题（一）

5、Block放置策略

– 第一个副本：集群内部提交放置在上传文件的DN；如果是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点。

– 第二个副本：放置在于第一个副本不同的机架的节点上。

– 第三个副本：与第二个副本相同机架的不同节点。

– 更多副本：随机节点，不重复的