Map的输出 :

  • Map的输出到内存: Map的 输出 先 写入环形缓冲区(默认大小100M-可以人为调整)(可以再输出的同时写入数据),
  • 当 缓冲区内 的数据 达到阈值(默认0.8-可以人为调整)时,对数据进行flash
  • flash 出去的 数据 数量达到一定量(默认4个)时,进行 数据的合并。​​​​​​
  • Map输出 和 Reduce读取

 Reduce数据读取  :

  •  Reduce 主动 发出 拷贝进程(默认5个copy进程)到 Map端获取数据
  • 获取到数据后,将数据写入内存,当数据达到阈值,将 数据 flash出去

  • flash出去文件达到一定的量时,进行数据合并。最终 数据 发送给reduce

Map输出 和 Reduce读取​​​​​​​

相关文章: