不是从第一章开始。

6.2.2 Map的困境

技巧 29 鉴别map阶段的数据差异问题

数据差异是非常常见的。在map阶段,数据差异主要以少量不可以分割的大文件或者大量小文件为代表。

问题

你想要确认一个job是否因为存在数据差异而导致其运行缓慢。

解决方案

使用JobTracker的UI来比较同一个job的map阶段的不同task的输入文件的大小。

讨论

数据差异表现为少数的task执行时花费的时间比其他的task多很多。如果你将延迟完成的task的输入文件大小和整个map的所有task的输入文件大小做一下比较的话,你就可以得到一个鉴别数据差异的万全之策了。
图6.6展示了使用JobTracker的UI来鉴别数据差异的步骤。

Manning Hadoop in Practice 翻译【6.2.2】

 图6.6 使用JobTracker的UI来鉴别数据差异

 

 

相关文章:

  • 2021-06-19
  • 2022-12-23
  • 2021-07-13
  • 2021-11-27
  • 2022-12-23
  • 2021-12-19
  • 2022-12-23
猜你喜欢
  • 2021-05-03
  • 2021-12-26
  • 2021-07-17
  • 2021-12-10
  • 2021-05-17
  • 2021-05-20
  • 2022-12-23
相关资源
相似解决方案