并行度
-
maptask并行度
- 切片机制
1)切片定义在InputFormat类中的getSplit()方法 maxsize、blocksize、minsize
2)FileInputFormat中默认的切片机制: 128m切,当一个文件的最后一个切片最大可以切成122m*1.1大小 - 并发数影响因素
运行节点的硬件
运行任务的类型:CPU密集/IO密集
运行人物的数据量
- 切片机制
-
reducetask并行度
- 作用
reducetask的并行度同样影响整个job的执行并发度和执行效率,但与maptask的并发数由切片数决定不同,Reducetask数量的决定是可以直接手动设置,但如果分配不均匀容易引起数据倾斜,且要考虑业务要求——全局汇总只能有1个reducetask
- 作用
shuffle过程
- 功能
- 分区
- 排序
- 优化
- 分组