很简单的MapReduce工作流程

MapReduce

1、 MapReduce是一个分布式运算的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。

2、MapReduce的核心功能：将用户编写的业务逻辑代码和自带的默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

3、MapReduce优缺点：

优点：
- 易于编程：简单的实现一个接口，就可以完成一个分布式的程序，这个程序可以分布到大量廉价的PC机器运行；
- 良好的扩展性能：当计算资源不能满足要求时，可以简单的增加机器来扩展它的运算能力；
- 高容错率：MapReduce的实际初衷就是可以让程序在廉价的机器上运行，这就要求了要有很高的容错率。当其中的一台机器挂了，可以把上面的计算任务转移到另一台节点上面运行，不至于任务失败，而且这个过程不需要人工参与，完全由Hadoop内部完成。
- 适合PB级海量数据的离线处理。
缺点：MapReduce不擅长做流式计算，实时计算，DAG(有向图)计算
- 不擅长做实时计算，无法像MySQL一样在毫秒或者秒级内返回结果；
- 不擅长流式计算：流式计算输入的数据是动态的，而MapReduce输入的数据时静态集是静态的，不能动态变化；
- 不擅长有向图(DAG)计算，性能非常低下，有大量磁盘的IO;

MapReduce的核心思想

MapReduce分布式运算程序往往分成至少两个阶段：

1、第一阶段：maptask并发实例，完全并行运行，互不相干；
2、第二阶段：reducetask并发实例互不相干，但是数据依赖于上一阶段的maptask并发实例的输出；
3、MapReduce编程模型只能包含一个map阶段和一个reduce阶段，若用户的业务逻辑非常复杂，只能多个MapReduce程序串行运行。

Mapreduce的进程

一个完整的MapReduce程序在分布式运行是由三个实例进程：

1.MrAppMaster：负责整个程序的过程调度以及状态协调；
2.MapTask：负责map阶段整个数据处理流程；
3.ReduceTask：负责reduce阶段整个数据处理流程

MapReduce运行流程

mapTask阶段
- 1、 Read 阶段：Map Task 通过用户编写的 RecordReader，从输入 InputSplit 中解析出一个个 key/value。
- 2、Map 阶段：该节点主要是将解析出的 key/value 交给用户编写 map()函数处理，并产生一系列新的 key/value。
- 3、 Collect 收集阶段：在用户编写 map()函数中，当数据处理完成后，一般会调用
  OutputCollector.collect()输出结果。在该函数内部，它会将生成的 key/value 分区（调Partitioner），并写入一个环形内存缓冲区中。
- 4、 spill溢写阶段：当环形缓冲区达到80%后，MapReduce 会将数据写到本地磁盘上，生成一个临时文件。需要注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作。
- 5、 Combine 阶段：当所有数据处理完成后，MapTask 对所有临时文件进行一次合并，以确保最终只会生成一个数据文件。
shuffle阶段
- 1、maptask 收集我们的 map()方法输出的 <k，v> 对，放到内存缓冲区中;
- 2、从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件；
- 3、多个溢出文件会被合并成大的溢出文件；
- 4、在溢出过程中，及合并的过程中，都要调用 partitioner 进行分区和针对 key 进行排序；
- 5、reducetask 根据自己的分区号，去各个 maptask 机器上取相应的结果分区数据；
- 6、reducetask 会取到同一个分区的来自不同 maptask 的结果文件，reducetask 会将这些文件再进行合并（归并排序）；
- 7、合并成大文件后，shuffle 的过程也就结束了，后面进入 reducetask 的逻辑运算过程。
注意：Shuffle 中的缓冲区大小会影响到 mapreduce 程序的执行效率，原则上说，缓冲区越大，磁盘 io 的次数越少，执行速度就越快。缓冲区的大小可以通过参数调整，参数：io.sort.mb 默认 100M。
reduceTask阶段
- 1.Copy 阶段：ReduceTask 从各个 MapTask 上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中;
- 2.Merge 阶段：在远程拷贝数据的同时，ReduceTask 启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多;
- 3.Sort 阶段：按照 MapReduce 语义，用户编写 reduce()函数输入数据是按 key 进行聚集的一组数据。为了将 key 相同的数据聚在一起，Hadoop 采用了基于排序的策略。由于各个 MapTask 已经实现对自己的处理结果进行了局部排序，因此，ReduceTask 只需对所有数据进行一次归并排序即可;
- 4.Reduce 阶段：reduce()函数将计算结果写到 HDFS 上。

MapReduce

1、 MapReduce是一个分布式运算的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。

2、MapReduce的核心功能：将用户编写的业务逻辑代码和自带的默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

3、MapReduce优缺点：

MapReduce的核心思想

Mapreduce的进程

MapReduce运行流程

注意：Shuffle 中的缓冲区大小会影响到 mapreduce 程序的执行效率，原则上说，缓冲区越大，磁盘 io 的次数越少，执行速度就越快。缓冲区的大小可以通过参数调整，参数：io.sort.mb 默认 100M。