YARN:Hadoop资源管理

1. 介绍

早期1.0的hadoop没有资源管理,导致各种工具使用不方便,没有集合

在HDFS和应用层之间加入YARN层, 可以构建新的系统,集中不同类型的大数据应用程序,如用于图形数据分析的Giraph、用于流式数据分析的Storm和用于内存分析的Spark。 YARN提供了一个标准的框架 ,支持定制化的应用建立在HADOOP生态之下。

大数据入门6:Hadoop资源管理-YARN

2. 结构

大数据入门6:Hadoop资源管理-YARN

  • Node Manager:每一个机器都有一个Node Manager,它在单个机器层面上工作,控制着独立的机器

  • Application Master:谈判者(personal negotiator),与Resource Manager ”谈判“获得资源,并在任务结束之后通知Node Manager
    大数据入门6:Hadoop资源管理-YARN

  • Container:是一个抽象概念,代表的是CPU,内存硬盘网络(memory disk network)等等其他资源的集合,简单一点可以把它理解成为机器(电脑)

  • Resource Manager:中间的Resource Manager是终极决策者,它控制着所有的资源,决定了谁分配到啥

  • Data Computation Framework =Node Manager+ Resource Manager


3. 总结

  1. YARN为应用程序提供了许多从数据中提取价值的方法
  2. 允许在相同的hadoop集群上运行多种分布式应用程序
  3. 减少了数据的移动需求,并支持更高的资源利用率,降低了成本
  4. 是一个可扩展的平台,使得在HDFS上的应用蓬勃发展,大大的丰富了Hadoop的生态系统

相关文章: