大数据学习（09）--Hadoop2.0介绍

文章目录

目录

1.Hadoop的发展与优化

1.1 Hadoop1.0 的不足与局限
1.2 Hadoop2.0 的改进与提升

2.HDFS2.0 的新特性

2.1 HDFS HA
2.2 HDFS Federation

3. 新一代的资源管理器YARN

3.1 MapReduce1.0 缺陷
3.2 YARN的设计思路
3.3 YARN 体系结构
3.4 YARN工作流程
3.5 YARN框架与MapReduce1.0框架进行对比
3.6 YARN的发展目标

4.Hadoop2.0 生态中具有代表性的功能组件

4.1 Pig
4.2 Tez
4.3 Spark
4.4 Kafka

目录

1.Hadoop的发展与优化

1.1 Hadoop1.0 的不足与局限

主要针对于Hadoop1.0中两大核心组件：MapReduce和HDFS有以下几点不足：

抽象层次低，需要人工编码（MapReduce需要人为的写map和reduce函数）
表达能力有限（MapReduce）
开发者自己管理作业之间的依赖关系（MapReduce）
难以看清程序的整体逻辑（MapReduce）
执行迭代操作效率低（MapReduce每次迭代写磁盘）
资源浪费（map-slot与reduce-slot不能共用）
实时性差（适用于批处理，不支持实时交互）

1.2 Hadoop2.0 的改进与提升

大数据学习（09）--Hadoop2.0介绍

hdfs fedration只是提供管理多个命名空间，每个节点还是存在单点故障的问题，所以需要集合HDFS HA一起使用，即对HDFS Fedration中的每个节点创建一个附属的名称节点，作为单个节点的热备份。
Hadoop1.0 中的第二名称节点不是一个热备份的功能，湿冷备份，具体请查看之前的博客。

大数据学习（09）--Hadoop2.0介绍

2.HDFS2.0 的新特性

2.1 HDFS HA

大数据学习（09）--Hadoop2.0介绍

HDFS HA

2.2 HDFS Federation

大数据学习（09）--Hadoop2.0介绍

3. 新一代的资源管理器YARN

3.1 MapReduce1.0 缺陷

大数据学习（09）--Hadoop2.0介绍

3.2 YARN的设计思路

大数据学习（09）--Hadoop2.0介绍

在Hadoop1.0 中，MapReduce既是一个大数据计算框架，又是一个资源和任务调度管理框架。

3.3 YARN 体系结构

大数据学习（09）--Hadoop2.0介绍

3.4 YARN工作流程

大数据学习（09）--Hadoop2.0介绍

3.5 YARN框架与MapReduce1.0框架进行对比

大数据学习（09）--Hadoop2.0介绍

3.6 YARN的发展目标

大数据学习（09）--Hadoop2.0介绍

4.Hadoop2.0 生态中具有代表性的功能组件

4.1 Pig

大数据学习（09）--Hadoop2.0介绍

4.2 Tez

大数据学习（09）--Hadoop2.0介绍

Tez是对MapReduce中的map和reduce过程进行优化，所以只要最终只要转换为map和reduce操作的都可以使用Tez进行优化。

大数据学习（09）--Hadoop2.0介绍

4.3 Spark

大数据学习（09）--Hadoop2.0介绍

4.4 Kafka

大数据学习（09）--Hadoop2.0介绍

相关文章：

2021-08-26
2021-11-27
2021-05-28
2021-09-17
2021-04-21
2021-11-12
2022-01-02
2021-10-18

猜你喜欢

2021-09-08
2021-08-07
2021-12-16
2021-05-21
2021-08-18
2021-08-13
2021-10-24

相关资源

下载 2022-12-17
下载 2021-06-06
下载 2021-06-06

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode