hadoop map 操作如何管理 HDFS 集群上的数据冗余？答案

【问题标题】：How does a hadoop map operation manage with data redundancy on the HDFS cluster?hadoop map 操作如何管理 HDFS 集群上的数据冗余？
【发布时间】：2014-10-26 16:12:28
【问题描述】：

由于 hadoop 在 HDFS 上运行，并且数据在 HDFS 集群中复制以实现冗余，hadoop 映射操作实际上是否会通过在集群中不同节点上的相同数据点上运行映射器来浪费大量处理器周期？（根据设计，节点之间有一些数据重叠，根据复制级别）。

还是首先，根据某种作业管理策略，只处理部分节点，以避免那种重复计算，以某种非常聪明的方式？

【问题讨论】：

标签： hadoop mapreduce

【解决方案1】：

每个映射器都有一个单独的 InputSplit 来处理。因此，如果您有 100 个 InputSplits，框架将生成 100 个映射器。然后每个映射器将检查它是否具有所需的所有数据 - 如果没有，它将下载所有必需的数据并开始计算。一个 InputSplit 永远不会被分配两次。

【讨论】：