学习笔记_MapReduce与Shuffle

MapReduce运行详解

MapReduce是Hadoop中的分布式离线并行计算框架，主要负责批量处理数据，这里将对MapReduce的运行过程进行解释

MapReduce在运行任务时会产生Map Task和Reduce Task两个进程，可分为Map、Shuffle和Reduce三个阶段

学习笔记_MapReduce与Shuffle

Map

每个map接收传来的一个split，格式为< key，value >，其中key为LongWritable格式，是当前数据在文件中的偏移量，value为Text格式，是当前split中的数据
map根据编写的代码对传入值进行处理后返回一个< key,value >

Shuffle

将map返回的结果按key进行分区(默认是对key进行hash后再对reduce数量取模，达到平衡各reduce工作量的作用)，并不断写入到环形缓冲区中
环形缓冲区默认是100M，当写入的数据达到阈值80%(即80M)的时候开始向磁盘溢写数据，此时溢写数据的进程与写入环形缓冲区的进程并不是同一个，因此在溢写过程中，依旧可以写入到环形缓冲区空余的20M空间中，溢写过程为先对数据按key进行sort排序，如果有定义combine(与reduce功能一样，进行数据合并)则会在合并后生成溢写文件，combine需要慎用，只建议在reduce输入与输出类型相同，进行求和或最大值计算并且不影响最终结果时使用
由于map最终的文件只能有一个，所以会对所有溢写文件根据分区进行merge，形成一个文件
为每个reduce从各个map生成的文件中不断拉取对应分区的数据进行merge形成新的文件

Reduce

接收Shuffle最后生成的对应自己分区的文件，对数据进行合并
将结果保存到HDFS指定路径

相关文章：

2021-08-20
2021-07-27
2021-06-14
2021-12-06
2021-12-24
2021-12-17
2021-09-22
2021-12-23

猜你喜欢

2021-10-04
2021-05-13
2021-10-01
2021-09-05
2021-09-25
2021-04-25
2021-09-10

相关资源

下载 2023-01-04
下载 2023-04-02
下载 2023-04-10

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode