1.2.2什么是MapReduce

总目录：https://blog.csdn.net/qq_41106844/article/details/105553392

Hadoop - 子目录：https://blog.csdn.net/qq_41106844/article/details/105553369

什么是MapReduce

MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷主要是为了解决其搜索引擎中大规模网页数据的并行化处理。

MapReduce有三层含义，广义上他是一种分布于并行计算集群，狭义上他是一种并行计算与运行软件框架，理论上他是一个并行程序设计模型与方法。

它提供了一个庞大但设计精良的并行计算软件框架，能自动完成计算任务的并行化处理，自动划分计算数据和计算任务，在集群节点上自动分配和执行任务以及收集计算结果，将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理，大大减少了软件开发人员的负担。

它借助于函数式程序设计语言Lisp的设计思想，提供了一种简便的并行程序设计方法，用Map和Reduce两个函数编程实现基本的并行计算任务，提供了抽象的操作和并行编程接口，以简单方便地完成大规模数据的编程和计算处理

MapReduce随着Hadoop的发展，分为了MapReduce1和MapReduce2，对应着Hadoop1.X和Hadoop2.X。

我们首先说MapReduce1：

MapReduce1架构

架构图

角色

JobTracker

全局唯一，主要负责集群资源监控和作业调度。

JobTracker会对集群中所有的TaskTracker进行监控，一旦TaskTracker出现宕机、失败等情况，JobTracker中的调度器会将原来在这个TaskTracker上面执行的任务转移到其他的节点上面继续执行。当有新的作业进入到集群中时，调度器会根据资源的使用情况合理的分配这些作业。

并且JobTracker中的调度器是可以插拔的，这意味着用户可以根据自己的需要，自定义作业和集群的调度方法。但是JobTracker存在单点故障的问题，一旦JobTracker所在的机器宕机，那么集群就无法正常工作。这也是 MapReduce 2.x 所要解决的主要问题之一。

TaskTracker

TaskTracker使用 “slot” 对本节点的资源（cpu、内存、磁盘等）进行划分，负责具体的作业执行工作。

TaskTracker需要周期性向JobTracker汇报本节点的心跳信息，包括自身运行情况、作业执行情况等，JobTracker中的调度器会根据心跳信息对其分配“slot”，TaskTracker获得slot之后，就开始执行相应的工作。

其中 slot 有两种： MapSlot 和 TaskSlot ，分别负责执行Map任务和Task任务，二者互不影响。

Client

提供api供用户编程调用，将用户编写的MapReduce程序提交到JobTracker中。

Task

分为两种：Map Task 和 Reduce Task，分别执行Map任务和 Task 任务。MapReduce的输入数据会被切分成多个 split ，一个split会交给一个Map Task去执行。

MapReduce1的工作流程

流程图

1.在客户端启动一个作业。

2.向JobTracker请求一个Job ID。

3.将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。JAR文件默认会有10个副本（mapred.submit.replication属性控制）；输入划分信息告诉了JobTracker应该为这个作业启动多少个map任务等信息。

4.JobTracker接收到作业后，将其放在一个作业队列里，等待作业调度器对其进行调度，当作业调度器根据自己的调度算法调度到该作业时，会根据输入划分信息为每个划分创建一个map任务，并将map任务分配给TaskTracker执行。对于map和reduce任务，TaskTracker根据主机核的数量和内存的大小有固定数量的map槽和reduce槽。这里需要强调的是：map任务不是随随便便地分配给某个TaskTracker的，这里有个概念叫：数据本地化（Data-Local）。意思是：将map任务分配给含有该map处理的数据块的TaskTracker上，同时将程序JAR包复制到该TaskTracker上来运行，这叫“运算移动，数据不移动”。而分配reduce任务时并不考虑数据本地化。

5.TaskTracker每隔一段时间会给JobTracker发送一个心跳，告诉JobTracker它依然在运行，同时心跳中还携带着很多的信息，比如当前map任务完成的进度等信息。当JobTracker收到作业的最后一个任务完成信息时，便把该作业设置成“成功”。当JobClient查询状态时，它将得知任务已完成，便显示一条消息给用户。

MapReduce2：

MapReduce 2.x 架构（YARN 架构）

架构图

MapReduce2的工作流程参考1.2.3什么是YARN中YARN的工作流程。

角色

ResourceManager

全局资源管理器，全局唯一。

负责整个集群的资源管理和分配，主要由负责资源调度分配的调度器和负责应用程序提交协商的应用程序管理器组成。

ApplicationMaster

用户提交的每个应用程序 / 作业都会带有一个ApplicationMaster，负责与ResourceManager中的调度器通信获得资源，将得到的任务进行分配，监控作业的执行情况。

NodeManager

集群中的每个节点都运行一个NodeManag进程，NodeManager向ResourceManager汇报本节点的各种信息，并且接受来自ApplicationMaster的作业分配信息。

Container

与MapReduce 1.x 中的slot 类似，container是YARN中的资源抽象，对节点的资源，如cpu、内存、磁盘等进行封装。

YARN为每一个任务分配一个container去进行执行。container与slot的区别在于，container是可以进行资源的动态划分的，而slot不能改变自身所包含资源的多少。

MapReduce2的工作流程在yarn中。

MapReduce的工作原理

原理图

Map端：

1．每个输入分片会让一个map任务来处理，默认情况下，以HDFS的一个块的大小（默认为64M）为一个分片，当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中（该缓冲区的大小默认为100M，由io.sort.mb属性控制），当该缓冲区快要溢出时（默认为缓冲区大小的80%，由io.sort.spill.percent属性控制），会在本地文件系统中创建一个溢出文件，将该缓冲区中的数据写入这个文件。

2．在写入磁盘之前，线程首先根据reduce任务的数目将数据划分为相同数目的分区，也就是一个reduce任务对应一个分区的数据。这样做是为了避免有些reduce任务分配到大量数据，而有些reduce任务却分到很少数据，甚至没有分到数据的尴尬局面。其实分区就是对数据进行hash的过程。然后对每个分区中的数据进行排序，如果此时设置了Combiner，将排序后的结果进行Combia操作，这样做的目的是让尽可能少的数据写入到磁盘。

3．当map任务输出最后一个记录时，可能会有很多的溢出文件，这时需要将这些文件合并。合并的过程中会不断地进行排序和combia操作，目的有两个：1.尽量减少每次写入磁盘的数据量；2.尽量减少下一复制阶段网络传输的数据量。最后合并成了一个已分区且已排序的文件。为了减少网络传输的数据量，这里可以将数据压缩，只要将mapred.compress.map.out设置为true就可以了。

4．将分区中的数据拷贝给相对应的reduce任务。有人可能会问：分区中的数据怎么知道它对应的reduce是哪个呢？其实map任务一直和其父TaskTracker保持联系，而TaskTracker又一直和JobTracker保持心跳。所以JobTracker中保存了整个集群中的宏观信息。只要reduce任务向JobTracker获取对应的map输出位置就ok了哦。

到这里，map端就分析完了。那到底什么是Shuffle呢？Shuffle的中文意思是“洗牌”，如果我们这样看：一个map产生的数据，结果通过hash过程分区却分配给了不同的reduce任务，是不是一个对数据洗牌的过程呢？呵呵。

Reduce端：

1．Reduce会接收到不同map任务传来的数据，并且每个map传来的数据都是有序的。如果reduce端接受的数据量相当小，则直接存储在内存中（缓冲区大小由mapred.job.shuffle.input.buffer.percent属性控制，表示用作此用途的堆空间的百分比），如果数据量超过了该缓冲区大小的一定比例（由mapred.job.shuffle.merge.percent决定），则对数据合并后溢写到磁盘中。

2．随着溢写文件的增多，后台线程会将它们合并成一个更大的有序的文件，这样做是为了给后面的合并节省时间。其实不管在map端还是reduce端，MapReduce都是反复地执行排序，合并操作，现在终于明白了有些人为什么会说：排序是hadoop的灵魂。

3．合并的过程中会产生许多的中间文件（写入磁盘了），但MapReduce会让写入磁盘的数据尽可能地少，并且最后一次合并的结果并没有写入磁盘，而是直接输入到reduce函数。

MapReduce的组件

InputFormatTest

作用

验证job的输入规范

对输入的文件进行切分，形成多个InputSplit文件，每一个InputSplit对应着一个map任务

创建RecordReader，从InputSplit分片中读取数据供map使用

分片（补充知识）

什么是分片：一个Map Task读取的文件长度

在进行map计算之前，map会根据输入文件计算输入分片（input split）；每个输入分片（input split）针对一个map任务。

输入分片存储的并非是数据本身，而是一个分片长度和一个记录数据的位置的数组。

逻辑概念，分片信息包括起始偏移量，分片大小，分片数据所在的块的信息,块所在的主机列表。

注意：分片是根据输入文件计算的，这些输入文件即是存储在hdfs上的那些个文件。

为什么要有分片：提高并行

每一个分片对应着一个maptask,通过调整分片的大小可以调整maptask的数量，也就是调整map阶段的并行度。

分片的设置

1.在程序中设置

最大值：FileInputFormat.setMaxInputSplitSize(job,1000000);

最小值：FileInputFormat.setMinInputSplitSize(job,1000);

2.如何计算

ong minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));//返回1

long maxSize = getMaxSplitSize(job);//返回long的最大值

long splitSize = computeSplitSize(blockSize, minSize, maxSize)

return Math.max(minSize, Math.min(maxSize, blockSize));

实际分片大小

while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {} //分片有一个1.1倍的冗余

读取规则

第一个分片从第一行开始读取，读到分片末尾，再读取下一个分片的第一行

既不是第一个分片也不是最后一个分片，第一行数据舍去，读到分片末尾，再继续读取下一个分片的第一行

最后一个分片舍去第一行，读到分片末尾

控制Task数量

Map Task

maptask数量由分片数量决定，可设置maxsize,minsize,blocksize来控制分片的大小，进而控制分片数量

改变数据总量也可影响maptask数量

Reduce Task

job.setNumReduceTasks(5); 直接设置reducetask数量

分区数和reducetask数量是一致的，可以调整分区数。

Map（核心）

作用

处理Split文件

映射为KV模型

并行分布式

计算向数据移动

Writable（重要）

作用

序列化

反序列化

使分布式程序实现数据交互

Shuffle（核心）

shuffle广义上来说就是Map到Reduce之间所有的过程，狭义上来说是将Map拉到Reduce的操作。

Partitioner（特别重要）

作用

将规约后的数据完美的传送到reduce端

均衡负载，尽量的将工作均匀的分配给不同的reduce

效率，分配速度一定要快

分区（补充知识）

默认分区：map的hashcode模除后余数是多少自动分配到哪个区

自定义分区：重写Partitioner方法

Combiner（重要）

作用

在本地上对map进行规约操作，减轻reduce压力

使用combiner可以产生特别大的性能提升，并且没有副作用

Merge

当数据量特别大时，建立的一个临时仓库和仓库管理员

Sort

全排序

Comparator

作用

二次排序

GroupComparator（重要）：辅助排序（分组）

WritableComparable（重要）：自定义排序

Reduce（核心）

作用

数据全量/分量加工

key相同的value在一个reduce内

内部有序，外部无序

排序实现汇聚

OutputFormat

作用

校验job中指定输出路径是否存在

将结果写入输出文件

优点

开发简单：用户不用考虑进程间的通信和套接字编程

可扩展性强：当集群资源不能满足计算需求时，可以增加节点的方式达到线性扩展集群的目的。

容错性强：对于节点故障导致失败的作业，MapReduce计算框架会自动将作业安排到健康的节点进行，直到任务完成。

缺点

执行速度慢：普通的MapReduce作业几分钟完成，数据量大的可能几个小时甚至一天的时间。

MapReduce过于低层化：一个简单的查询，需要写Map和reduce函数，复杂且耗费时间，建议使用hive数据库进行处理。

不是所有的算法都用MapReduce实现：例如机器学习的模型训练，有赖于状态共享和参数间的依赖，需要维护和更新。