hadoop的一些重点

hadoop分三个阶段:

1.hdfs:负责海量数据的分布式存储,有三个对象:

namenode,secondarynode,datanode

什么是NameNode和DataNode?他们是如何协同工作的:

一个HDFS集群包含一个NameNode和若干的DataNode(start-dfs命令就启动了NameNode和DataNode)

NameNode:管理者,主要负责管理hdfs文件系统,NameNode主要是用来保存HDFS的元数据信息,比如空间信息,块信息等。当它运行的时候,这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上。

DataNode主要用来存储数据文件,因为文件可能巨大无比(大数据,大于1TB),HDFS将一个文件分割成一个个的block,这些block可能存储在一个DataNode上或 者多个DataNode上。DataNode负责实际的底层的文件的读写。

SecondaryNode:职责是合并NameNode的edit logs到fsimage文件中;
hadoop的一些重点

2.yarn负责数量计算的调度.有两个对象:resourcemanager,nodemanager

Yarn的基本流程(执行流程):

1.client向yarn提交job,首先找ResourceManager分配资源,
2.ResourceManager开启一个Container,在Container中运行一个Application manager
3.Application manager找一台nodemanager启动Application master,计算任务所需的计算
4.Application master向Application manager(Yarn)申请运行任务所需的资源
5.Resource scheduler将资源封装发给Application master
6.Application master将获取到的资源分配给各个nodemanager
7.各个nodemanager得到任务和资源开始执行map task
8.map task执行结束后,开始执行reduce task
9.map task和 reduce task将执行结果反馈给Application master
10.Application master将任务执行的结果反馈pplication manager

hadoop的一些重点

3.mapreduce负责数据的计算和处理,分为map和reduce计算过程:

map 和reduce的计算过程:

相关文章:

  • 2021-05-10
  • 2021-09-07
  • 2022-12-23
  • 2022-12-23
  • 2021-06-16
  • 2021-04-20
  • 2021-06-23
  • 2021-06-20
猜你喜欢
  • 2021-12-17
  • 2021-08-04
  • 2022-02-13
  • 2021-12-20
  • 2021-11-22
  • 2021-12-20
  • 2021-11-17
相关资源
相似解决方案