Hadoop Mappers 是否仅在本地执行？答案

【问题标题】：Are Hadoop Mappers executed only locally?Hadoop Mappers 是否仅在本地执行？
【发布时间】：2013-10-01 10:34:40
【问题描述】：

我有一种情况，文件的整个块位于一台机器上，默认复制因子为 1。

在这种情况下，如果我在集群上启动 hadoop，我觉得我的所有映射任务将只在一台机器上运行，因为块只存在于那台机器上。这样对吗？本地映射器任务执行是一个约束还是一个优先级？
如果是，是否可以通过将块复制到本地磁盘来配置映射器任务也在其他机器上运行。？

第二个问题是，即使mapper任务只在一台机器上运行，通过复制mapper的中间数据在所有其他机器上启动reducer是否正确？

【问题讨论】：

假设我们有足够的map和reduce槽

标签： java hadoop mapreduce mapper reducers

【解决方案1】：

数据本地执行只是一个优先级，而不是一个约束。如果其他节点上有空闲槽，Hadoop 将生成非本地映射器。您甚至可以为同时运行的相同数据块启动更多映射器——这称为推测执行——首先完成的任务获胜，其他任务被杀死。

对于 reducer - 它们在称为 shuffle 的阶段通过网络复制地图输出数据。

【讨论】：

谢谢。我认为复制只在减少阶段完成。（洗牌）。那么你的意思是，如果存在映射槽，相同的数据块也将被复制到非本地机器以执行映射任务？
是的，这种情况下map任务的输入数据会被复制，效率远低于本地执行。

【解决方案2】：

框架尽最大努力使处理尽可能本地化。但在某些情况下，这可能不符合要求。一个显然是插槽不可用。另一种情况可能是当您的 InputSplit 跨越多个块并且每个块驻留在不同的机器上时。在这种情况下，InputSplit 的另一部分将被移动到启动此 InputSplit 的 Mapper 的节点，以便整个块由 1 个 Mapper 处理。

本地映射器任务执行是一个约束还是一个优先级？

这不是一个约束。只是为了让事情更有效率。否则，将您的大数据从这里移动到那里以进行处理将是多么低效。这是 Hadoop 的基本原则之一。

如果是，是否可以通过将块复制到本地磁盘来配置映射器任务也在其他机器上运行。？

你为什么要这样做？如果您真的想在同一块的多个副本上运行 Mappers，您可以将推测执行切换为 true，而不是将块从一个地方复制到另一个地方。这将在多台机器上的同一块上运行多个映射器，您将通过最快的映射器获得输出。

第二个问题是，即使mapper任务只在一台机器上运行，通过复制mapper的中间数据在所有其他机器上启动reducer是否正确？

Reducer 可以在任何有空闲槽的节点上启动。不是所有的机器都必须。

【讨论】：