Hadoop是什么

Hadoop是一个用于解决大数据存储与分析计算的一个分布式系统基础架构。而Hadoop的强大之处在于生态圈的强大,正如Java一样,生态决定了一个工具语言的流行程度

Hadoop的组成

Hadoop有Hadoop1.x跟Hadoop2.x两个版本,其主要核心由三部分组成HDFS(Hadoop分布式文件系统)、MapReduce(负责映射计算)、HBase(Nosql数据库)。Hadoop入门学习(一)
Hadoop1.x与Hadoop2.x的最大区别是将资源调度从MapReduce中抽离处理,增加了Yarn进行资源调度,让Hadoop的整体耦合度降低

HDFS简介

HDFS即Hadoop Distributed File System,HDFS由NameNode(nn)与DataNode(dn)组成。
NameNode:存储文件的元数据,如文件目录,文件目录结构,类似索引的存在,可以指明数据块的存储位置。
DataNode:在本地文件系统存储文件块数据,即实际存储数据的地方。
二者的关系可以认为一个请求过来,先从NameNode获取数据的存储位置,然后通过存储位置,到对应的DataNode获取数据。

Yarn简介

Yarn主要进行Hadoop的资源调度,监控各个节点

MapReduce架构简介

MapReduce将数据的运行分为两个阶段,Map跟Reduce。
Map阶段并行处理输入数据
Reduce阶段将Map结果进行汇总
运行关系有点像ES6或者Java8的Map跟Reduce运算,分发运算汇总,提高系统效率。

相关文章:

  • 2021-11-23
  • 2021-07-10
  • 2022-01-08
  • 2021-07-14
  • 2022-12-23
  • 2021-04-01
猜你喜欢
  • 2021-11-29
  • 2021-05-05
  • 2021-10-15
  • 2021-12-07
  • 2021-07-22
相关资源
相似解决方案