1. 概念
1) NameNode
NameNode是HDFS的Master架构。主要负责:
1.HDFS文件系统的管理工作,具体包括名称空间管理,文件Block管理。
2.接受客户端请求
3.维护文件的元信息(fsimage)和操作日志(edits)
2) DataNode
DataNode是负责存储数据的组件,一个block数据块会在多个DataNode中冗余备份,而一个dataNode对于一个块最多只包含一个备份。DataNode定时和NameNode进行通信,接受NameNoder指令。为了减轻NameNode的负担,NameNode上并不永久保存哪个DataNode上有哪些数据块的信息,而是通过DataNode启动时的上报来更新映射表。
NameNode不会发起到DataNode的请求,这个通信过程中,它们严格遵从客户端/服务器架构。
3) Block
Block块,(1.x默认64M)(2.x默认128M),客户端在读取HDFS上的一个文件时就以块为基本的数据单元。
4) SecondaryNameNode
和NameNode没有关系,主要负责日志合并。
当HDFS发出检查点(checkpoint)的时候,进行合并。
1.默认60分钟触发一次,对应配置fs.check.period
2.当edits日志文件的大小达到64M时触发一次,对应配置fs.check.size。
2. Hadoop的目录结构
3.Hadoop的体系结构
4.hadoop可视化页面
默认端口为50070,如:http://192.168.110.97:50070
5. Yarn的体系结构
Yarn是一个容器,用来装mapreduce程序;
Yarn是一个资源调度平台
Yarn为主从结构:主节点:ResourceManager
从节点:NodeManager
Hadoop2.0之后才有yarn。
在yarn-site.xml中配置web端口号为18088后,可访问: