【问题标题】:Time to complete Map and Reduce Tasks in Hadoop在 Hadoop 中完成 Map 和 Reduce 任务的时间
【发布时间】:2013-12-28 05:55:00
【问题描述】:

我想要 要知道这两个计数器的真正含义 全部花费的总时间 映射占用的插槽(毫秒)和所有减少所花费的总时间 占用时隙(毫秒)。我刚刚写了类似字数统计的MR程序 我得到了

**所有地图在占用槽中花费的总时间(毫秒)=15667400

所有reduce在占用槽中花费的总时间(ms)=158952

花费的 CPU 时间(毫秒)=51930

真正的 7m38.886s**

为什么会这样??????第一个计数器的值非常高 这实际上是其他三个无法比拟的。请清除这个 对我来说。

谢谢

问候

【问题讨论】:

标签: hadoop


【解决方案1】:

可能需要更多关于输入数据的上下文,但前两个计数器显示了在所有 map 和 reduce 任务上花费了多少时间。这个数字比其他任何东西都大,因为您可能有一个多节点 hadoop 集群和一个大型输入数据集 - 这意味着您有很多并行运行的地图任务。假设您有 1000 个并行运行的映射任务,每个任务需要 10 秒才能完成 - 在这种情况下,所有映射器的总时间为 1000*10, 10000 秒。实际上,map 阶段可能只需要 10-30 秒即可并行完成,但如果您要串行运行它们,则需要 10000 秒才能完成单个节点、单个 map slot 集群。

所花费的 CPU 时间是指总时间中有多少是纯 CPU 处理时间 - 这比其他工作要小,因为您的工作主要受 IO 限制(从磁盘读取和写入磁盘,或通过网络)。

【讨论】:

  • 我的输入数据是一组pkts,job类似于word count。我想知道我可以减少所有地图花费的时间。压缩有帮助吗???
  • 您的平均地图运行时间是多少? - jobhistory.jsp 应该可以告诉你这个
猜你喜欢
  • 1970-01-01
  • 2011-08-06
  • 1970-01-01
  • 2012-07-07
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多