split
split 数量: 依赖于block 大小。一般情况下于block 大小相对应1:1
splits —》 filesplit 【start , size, blocklocations…】
filesplit 放在list 中 -》 将list 变为数组 ,这个数组长度就是map的数量
map
mapin -> maptask -> run 方法 -> mapper…run
mapout -> buffer
排序 -》 比较 -》 压缩
缓冲区大小默认100M,比例默认是0.8,都可以修改
缓冲区的作用:1加快网络间数据的传输效率,减少io流阻塞
2 排序:排序器:快排
环状缓冲区:
reduce
shuffle:http 传输
sort: 二次排序:group进行边界确定
reduce : group
————————————————————————————————————————————————————————————