HDFS优势

1、高容错性:提供副本的方式提高容错性
2、适合批处理:移动计算不是移动数据处理
3、适合大数据处理:GB或者TB级别的数据
4、流式文件访问:一次写入,只能追加不能修改
5 、可构建在廉价机器上:

HDFS劣势

1、低延时数据访问:
2、小文件处理:文件名放在namenode里。
3、并发写入,文件随机修改:不支持修改文件。

1.0HDFS基本架构

hadoop基础知识

HDFS2新特性

nameNode HA

1、基于NFS共享存储解决方案
2、基于Qurom Journal Manager(QJM)解决方案

NameNode Federation

1、存在多个NameNode,每个NameNode分管一部分目录
2、NameNode共用DataNode

Hadoop HA架构师

hadoop基础知识

MapReduce的编程模型

hadoop基础知识

MapReduce-编程模型–Combiner

hadoop基础知识

MapReduce-编程模型–Partitioner

hadoop基础知识

MapReduce-基本架构

hadoop基础知识

jobtracker

1、负责资源管理和作业调度
2、负责将作业分解成一系列任务
3、负责将作业指派给TaskTracker
4、负责任务的监控以及错误日志处理

TaskTracker

1、负责运行Map Task和Reduce Task
2、它与JobTracker进行交互,执行jobtracker下达的命令,并向
jobtracker汇报任务状态。

Yarn基本架构

hadoop基础知识

ResourceManager

1、处理客户端请求。
2、启动或者监控ApplicationMaster。
3、监控NodeManager。
4、资源的分配和调度。

NodeManager

1、单个节点上的资源管理。
2、处理来自ResouceManager的命令。
3、处理来自ApplicationMaster的命令。

ApplicationMaster

1、负责数据的切分。
2、为应用程序申请资源并分配给内部的任务。
3、任务的监控与容错。

Container

1、对任务运行环境进行抽象,封装了CPU,内存等多维度的资源以及环境变量,启动命令等任务运行相关的信息。

yarn的工作原理

hadoop基础知识

相关文章: