1. 切片与 MapTask并行度决定机制

  1. 问题引出
    MapTask的并行度决定 Map阶段的任务处理并发度,进而影响到整个Job的处理速度。
    【3.1】MapReduce框架原理之InputFormat数据输入
  2. MapTask并行度决定机制
    【3.1】MapReduce框架原理之InputFormat数据输入
    数据切片与MapTask并行度决定机制【3.1】MapReduce框架原理之InputFormat数据输入

2. Job 提交流程源码和切片源码详解

  1. Job提交流程
    【3.1】MapReduce框架原理之InputFormat数据输入
    源码详解
    【3.1】MapReduce框架原理之InputFormat数据输入【3.1】MapReduce框架原理之InputFormat数据输入
    【3.1】MapReduce框架原理之InputFormat数据输入

  2. FileInputFormat 切片源码解析(input.getSplits(job))
    【3.1】MapReduce框架原理之InputFormat数据输入

3. FileInputFormat 切片机制

  1. 切片机制【3.1】MapReduce框架原理之InputFormat数据输入
  2. 案例分析
    【3.1】MapReduce框架原理之InputFormat数据输入
  3. FileInputFormat切片大小的参数配置【3.1】MapReduce框架原理之InputFormat数据输入

4.CombineTextInputFormat 切片机制【3.1】MapReduce框架原理之InputFormat数据输入

  1. 应用场景:
    【3.1】MapReduce框架原理之InputFormat数据输入
  2. 虚拟存储切片最大值设置
    【3.1】MapReduce框架原理之InputFormat数据输入
  3. CombineTextInputFormat切片机制
    生成切片过程包括:虚拟存储过程和切片过程二部分。
    【3.1】MapReduce框架原理之InputFormat数据输入
    (1)虚拟存储过程
    【3.1】MapReduce框架原理之InputFormat数据输入
    (2)切片过程:
    【3.1】MapReduce框架原理之InputFormat数据输入

5. CombineTextInputFormat案例实操

  1. 需求
    将输入的大量小文件合并成一个切片统一处理 。
    【3.1】MapReduce框架原理之InputFormat数据输入
  2. 实现过程
    【3.1】MapReduce框架原理之InputFormat数据输入

6. FileInputFormat 实现类

【3.1】MapReduce框架原理之InputFormat数据输入

  1. TextInputFormat
    【3.1】MapReduce框架原理之InputFormat数据输入
  2. KeyValueTextInputFormat【3.1】MapReduce框架原理之InputFormat数据输入
  3. NLineInputFormat
    【3.1】MapReduce框架原理之InputFormat数据输入
  4. 自定义InputFormat
    【3.1】MapReduce框架原理之InputFormat数据输入

相关文章: