从机上的 DiskErrorException - Hadoop 多节点答案

【问题标题】：DiskErrorException on slave machine - Hadoop multinode从机上的 DiskErrorException - Hadoop 多节点
【发布时间】：2013-07-25 07:19:34
【问题描述】：

我正在尝试从 hadoop 处理 XML 文件，但在对 XML 文件调用字数统计作业时出现以下错误。

13/07/25 12:39:57 INFO mapred.JobClient: Task Id : attempt_201307251234_0001_m_000008_0, Status : FAILED
Too many fetch-failures
13/07/25 12:39:58 INFO mapred.JobClient:  map 99% reduce 0%
13/07/25 12:39:59 INFO mapred.JobClient:  map 100% reduce 0%
13/07/25 12:40:56 INFO mapred.JobClient: Task Id : attempt_201307251234_0001_m_000009_0, Status : FAILED
Too many fetch-failures
13/07/25 12:40:58 INFO mapred.JobClient:  map 99% reduce 0%
13/07/25 12:40:59 INFO mapred.JobClient:  map 100% reduce 0%
13/07/25 12:41:22 INFO mapred.JobClient:  map 100% reduce 1%
13/07/25 12:41:57 INFO mapred.JobClient: Task Id : attempt_201307251234_0001_m_000015_0, Status : FAILED
Too many fetch-failures
13/07/25 12:41:58 INFO mapred.JobClient:  map 99% reduce 1%
13/07/25 12:41:59 INFO mapred.JobClient:  map 100% reduce 1%
13/07/25 12:42:57 INFO mapred.JobClient: Task Id : attempt_201307251234_0001_m_000014_0, Status : FAILED
Too many fetch-failures
13/07/25 12:42:58 INFO mapred.JobClient:  map 99% reduce 1%
13/07/25 12:42:59 INFO mapred.JobClient:  map 100% reduce 1%
13/07/25 12:43:22 INFO mapred.JobClient:  map 100% reduce 2%

我观察者在从机上的 hadoop-hduser-tasktracker-localhost.localdomain.log 文件中出现错误。

2013-07-25 12:38:58,124 WARN org.apache.hadoop.mapred.TaskTracker: getMapOutput(attempt_201307251234_0001_m_000001_0,0) failed :
org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find taskTracker/hduser/jobcache/job_201307251234_0001/attempt_201307251234_0001_m_000001_0/output/file.out.index in any of the configured local directories
        at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathToRead(LocalDirAllocator.java:429)

当我运行文本文件时，这很好用

【问题讨论】：

标签： hadoop mapreduce hadoop-streaming hadoop-plugins hadoop-partitioning

【解决方案1】：

看起来你已经点击了这个issue。应用补丁或下载固定版本，你应该很高兴。

HTH

【讨论】：

我已经通过链接 Hadoop 1.2.0 发布时关闭。 我只使用 1.2.0，所以我可以重新安装所有更高版本的设置吗版本...？@Tariq
我的主任务跟踪器日志中确实出现此错误 2013-07-25 15:23:54,236 错误 org.apache.hadoop.mapred.TaskTracker：捕获异常：java.io。 IOException: 本地异常调用 master/192.168.0.1:54311 失败：java.io.IOException: Connection reset by peer
面临此错误 2013-07-25 19:41:11,765 警告 org.apache.hadoop.security.UserGroupInformation：没有可供用户网络用户使用的组 2013-07-25 19:41： 11,778 WARN org.apache.hadoop.security.ShellBasedUnixGroupsMapping：尝试为用户 webuser org.apache.hadoop.util.Shell$ExitCodeException 获取组时出现异常：id：webuser：没有这样的用户
是的。在 hdfs-site.xml 中替换它。
这是相关的 JIRA - issues.apache.org/jira/browse/HADOOP-5146 。它看起来与您的问题完全一样，而不是我在上面指定的问题。但这在很久以前就已经解决了。顺便说一句，你在 Windows 上吗？？