【发布时间】:2015-07-15 09:30:14
【问题描述】:
我有一个长期运行的 MapReduce 作业,其中一些映射器比其他映射器花费更多的时间。
检查 Web 界面上的统计信息,我看到我的组合器也启动了减速器(其中大部分是空闲的,因为只有 2 个映射器仍在运行)。
虽然在所有映射器完成之前不要浪费时间并进行一些预聚合似乎是合理的,但我找不到任何有关此行为的文档。谁能确认这确实是 Hadoop 的一个功能,或者只是在 Web 界面上显示错误?
【问题讨论】:
标签: hadoop mapreduce aggregation reducers combiners