【发布时间】:2015-08-26 10:59:44
【问题描述】:
映射器输出临时存储在循环缓冲区中(在内存中)。默认缓冲区大小为 100 Mb。当缓冲区填满 80% 时,将开始溢出过程。 (http://grepalex.com/2012/09/24/map-partition-sort-spill/) 这种溢出(一次溢出)何时停止/完成? 创建固定大小的溢出后它会停止吗?
【问题讨论】:
标签: hadoop mapreduce hadoop-yarn
映射器输出临时存储在循环缓冲区中(在内存中)。默认缓冲区大小为 100 Mb。当缓冲区填满 80% 时,将开始溢出过程。 (http://grepalex.com/2012/09/24/map-partition-sort-spill/) 这种溢出(一次溢出)何时停止/完成? 创建固定大小的溢出后它会停止吗?
【问题讨论】:
标签: hadoop mapreduce hadoop-yarn
好问题。让我试着一步一步解释。
【讨论】:
这里的溢出意味着它溢出到本地磁盘(不是 hdfs),reducer 会在那里拾取它。溢出以循环方式写入 mapred.local.dir 属性指定的目录。当所有地图输出都写入磁盘时,溢出将停止。
【讨论】: