在 Hadoop 中完成 Map 和 Reduce 任务的时间

【问题标题】：Time to complete Map and Reduce Tasks in Hadoop在 Hadoop 中完成 Map 和 Reduce 任务的时间
【发布时间】：2013-12-28 05:55:00
【问题描述】：

我想要要知道这两个计数器的真正含义全部花费的总时间映射占用的插槽（毫秒）和所有减少所花费的总时间占用时隙（毫秒）。我刚刚写了类似字数统计的MR程序我得到了

**所有地图在占用槽中花费的总时间（毫秒）=15667400

所有reduce在占用槽中花费的总时间(ms)=158952

花费的 CPU 时间（毫秒）=51930

真正的 7m38.886s**

为什么会这样？？？？？？第一个计数器的值非常高这实际上是其他三个无法比拟的。请清除这个对我来说。

谢谢

问候

【问题讨论】：

您的答案可能位于以下线程stackoverflow.com/questions/28861620/…

标签： hadoop

【解决方案1】：

可能需要更多关于输入数据的上下文，但前两个计数器显示了在所有 map 和 reduce 任务上花费了多少时间。这个数字比其他任何东西都大，因为您可能有一个多节点 hadoop 集群和一个大型输入数据集 - 这意味着您有很多并行运行的地图任务。假设您有 1000 个并行运行的映射任务，每个任务需要 10 秒才能完成 - 在这种情况下，所有映射器的总时间为 1000*10, 10000 秒。实际上，map 阶段可能只需要 10-30 秒即可并行完成，但如果您要串行运行它们，则需要 10000 秒才能完成单个节点、单个 map slot 集群。

所花费的 CPU 时间是指总时间中有多少是纯 CPU 处理时间 - 这比其他工作要小，因为您的工作主要受 IO 限制（从磁盘读取和写入磁盘，或通过网络）。

【讨论】：

我的输入数据是一组pkts，job类似于word count。我想知道我可以减少所有地图花费的时间。压缩有帮助吗？？？
您的平均地图运行时间是多少？ - jobhistory.jsp 应该可以告诉你这个