MapReduce分为两部分:map阶段和reduce阶段
MapReduce优点:并行计算
MapReduce的整个工作过程
input:输入原始数据
mapreduce框架:自动将每一行数据用行号来编成key(输入给map之前)
map:输入给map是k–v,经过map的处理,将每一行单独转换成另外的k—v段
(注:map输出的数据有很多重复的,并且没有被排序,不利于下一步的reduce处理,为了下一步的reduce处理,故对map输出的数据进行洗牌)
shuffle:洗牌,分组加排序的过程,把同样的数据拿出来放到一组,和同一个k映射,洗牌之后的数据变得更加规整,发送给rudeuce
reduce:进行化简,从数据集当中取出最大值,生成新的输出