【转载】Hadoop mapreduce 实现原理

MapReduce是Google开源的三大技术之一，是对海量数据进行“分而治之”计算框架。为了简单的理解并讲述给客户理解。我们举下面的例子来说明.

首先，面对一堆杂乱的东西，有若干个汉堡、若干个冰淇淋、若干个可乐。如果级别都是上万数量的情况下，有没有方法把他们较快的分析出来？

第一步，调度员简单的将这一堆东西分解成若干堆。

【转载】Hadoop mapreduce 实现原理

第二步，调度员为每堆物品分配一个分拣员，注意只分拣不计数，分拣员对应MAPReduce中的Map角色。分拣员干的事情，就是将物品按类别分拣，比如分拣后的每一堆的状态应该是如下图所示。分拣员所做的也分成简单，从自己面前这一堆物品中拿一个，看是面包的话，就扔面包那。是可乐就扔可乐那。

【转载】Hadoop mapreduce 实现原理

第三步，调度员为每类物品分配一个计数员（Reducer），把所有该类型的物品都发给他计数。比如所有的面包类别都分给第一个计数员来负责计数。计数员统计出每个类别的数目，再告诉调度员。

【转载】Hadoop mapreduce 实现原理

总结：Mapper用来分类，Reduce则用来对同类型的东西做进一步处理。对于互联网的应用场景，比如分析一个网页中出现的词汇最多的单词是什么。Mapper用来将网页中的文字段落分解成一个个单词。相同的单词会被送给同一个Reducer。Reducer会计算出该单词出现了多少次。最后按照各单词出现的次数得出结论。