【发布时间】:2017-04-21 23:08:28
【问题描述】:
在某些用例中,我已经有一段时间没有使用减速器作业了,但我还没有遇到过“没有映射器”作业。 “没有映射器”意味着 mapreduce 框架仍然会读取输入文件并以某种方式对它们进行混洗/排序(基于 InputFormat?),这些将是我的减速器的输入?
【问题讨论】:
在某些用例中,我已经有一段时间没有使用减速器作业了,但我还没有遇到过“没有映射器”作业。 “没有映射器”意味着 mapreduce 框架仍然会读取输入文件并以某种方式对它们进行混洗/排序(基于 InputFormat?),这些将是我的减速器的输入?
【问题讨论】:
“No mapper”是“identity mapper”的委婉说法。如果您不指定一个,则默认映射器就是这样。至少,identity mapper 进程将未更改的输入引导到正确的 reducer 分区。
【讨论】:
如果您使用 Hadoop Streaming:
-mapper "/bin/sh -c \"cat\""
【讨论】:
对于某些基于输入键的聚合函数,身份映射器是有意义的。 mapper 将发出与它的输入相同的 i/o 键,reducer 将聚合特定键的值。
【讨论】: