【发布时间】:2014-03-24 19:10:17
【问题描述】:
我正在尝试在我的集群上处理 40GB 的 Wikipedia 英文文章。问题是以下重复的错误消息:
13/04/27 17:11:52 INFO mapred.JobClient: Task Id : attempt_201304271659_0003_m_000046_0, Status : FAILED
Too many fetch-failures
13/04/27 17:11:52 WARN mapred.JobClient: Error reading task outputhttp://ubuntu:50060/tasklog?plaintext=true&attemptid=attempt_201304271659_0003_m_000046_0&filter=stdout
当我在维基百科文章的一小部分而不是完整集上运行相同的 MapReduce 程序时,它工作得很好,我得到了所有想要的结果。基于此,我认为可能是内存问题。我清除了所有用户日志(在类似的post 中指定)并再次尝试。无用。 我将复制拒绝为 1 并添加了更多节点。还是没用。
集群汇总如下:
- 配置容量: 205.76 GB
- 使用的 DFS: 40.39 GB
- 使用的非 DFS: 44.66 GB
- 剩余 DFS: 120.7 GB
- 使用的 DFS 百分比: 19.63%
- DFS 剩余百分比: 58.66%
- 活动节点: 12
- 死节点: 0
- 退役节点: 0
- 复制不足的块数: 0
每个节点都在 Ubuntu 12.04 LTS
上运行感谢任何帮助。
编辑
JobTracker 日志:http://txtup.co/gtBaY
TaskTracker 日志:http://txtup.co/wEZ5l
【问题讨论】:
-
你能给我们看完整的日志吗?
-
@Tariq 这是完整的日志。地图后50%;减少 0% INFO,以上两行以不同的 Task_id 不断重复。没有失败信息出现,执行没有终止。
-
我的意思是 jobTracker 和 TaskTracker 日志..