【问题标题】:When would "no mapper" be needed?什么时候需要“无映射器”?
【发布时间】:2017-04-21 23:08:28
【问题描述】:

在某些用例中,我已经有一段时间没有使用减速器作业了,但我还没有遇到过“没有映射器”作业。 “没有映射器”意味着 mapreduce 框架仍然会读取输入文件并以某种方式对它们进行混洗/排序(基于 InputFormat?),这些将是我的减速器的输入?

【问题讨论】:

    标签: hadoop mapreduce


    【解决方案1】:

    “No mapper”是“identity mapper”的委婉说法。如果您不指定一个,则默认映射器就是这样。至少,identity mapper 进程将未更改的输入引导到正确的 reducer 分区。

    【讨论】:

      【解决方案2】:

      如果您使用 Hadoop Streaming:

      -mapper "/bin/sh -c \"cat\""
      

      【讨论】:

        【解决方案3】:

        对于某些基于输入键的聚合函数,身份映射器是有意义的。 mapper 将发出与它的输入相同的 i/o 键,reducer 将聚合特定键的值。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2012-09-16
          • 1970-01-01
          • 2023-03-23
          • 2018-12-10
          • 2010-12-29
          • 2017-07-13
          相关资源
          最近更新 更多