Hadoop（12）Mapreduce核心思想、编程模型、编程指导思想（八大步骤）

mapreduce核心思想

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。

MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

MapReduce的核心思想是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。即使是发布过论文实现分布式计算的谷歌也只是现了这种思想，而不是自己原创。

这两个阶段合起来正是MapReduce思想的体现。

通俗解释：　　

我们要数图书馆中的所有书。你数1号书架，我数2号书架。这就是“Map”。我们人越多，数书就越快。

现在我们到一起，把所有人的统计数加在一起。这就是“Reduce”。

分而治之--->使用单台服务器无法计算或较短时间内计算出结果时，可将大任务切分成一个个小的任务，小任务分别在不同的服务器上并行的执行，最终再汇总每个小任务的结果。

MapReduce由两个阶段组成：

Map阶段（切分成一个个小的任务）
- map阶段有一个关键的map()方法。
- 此方法的输入和输出都是键值对。输出写入本地磁盘。
Reduce阶段（汇总小任务的结果）
- reduce阶段有一个关键的reduce()方法
- 此方法的输入也是键值对（即map的输出（kv对））
- 输出也是一系列键值对，结果最终写入HDFS