并行度

  • maptask并行度

    • 切片机制
      1)切片定义在InputFormat类中的getSplit()方法 maxsize、blocksize、minsize
      2)FileInputFormat中默认的切片机制: 128m切,当一个文件的最后一个切片最大可以切成122m*1.1大小
    • 并发数影响因素
      运行节点的硬件
      运行任务的类型:CPU密集/IO密集
      运行人物的数据量
  • reducetask并行度

    • 作用
      reducetask的并行度同样影响整个job的执行并发度和执行效率,但与maptask的并发数由切片数决定不同,Reducetask数量的决定是可以直接手动设置,但如果分配不均匀容易引起数据倾斜,且要考虑业务要求——全局汇总只能有1个reducetask

shuffle过程

MR总结

  • 功能
    • 分区
    • 排序
    • 优化
    • 分组

相关文章: