【问题标题】:Error : org.apache.hadoop.mapred.InvalidInputException: Input path does not exist错误:org.apache.hadoop.mapred.InvalidInputException:输入路径不存在
【发布时间】:2015-05-29 10:25:44
【问题描述】:

我是 nutch 和 solr 集成的新手。

我想抓取新的 url,所以我在 ubuntu 中安装了 solr 4.6.0 版和 nutch 1.6 版。首先我从一些配置开始,但我仍然得到这个错误:

org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:文件:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_fetch

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin /20150529030452/crawl_parse

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_data

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_text

在文件日志中我收到此错误:

2015-05-29 03:05:41,153 错误 security.UserGroupInformation -PriviledgedActionException as:cloudera

原因:org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:文件:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_fetch

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_parse

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_data

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_text

2015-05-29 03:05:41,153 错误 solr.SolrIndexer - org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:文件:/home/cloudera/apache-nutch-1.6/bin/20150529030452 /crawl_fetch

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_parse

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_data

输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_text

这是什么意思,你能解释一下是什么问题,我该如何解决。

非常感谢您的帮助。

【问题讨论】:

    标签: java hadoop solr fetch nutch


    【解决方案1】:

    如果您在 Mac OS 或任何基于 Unix 的操作系统(如 FreeBSD)中使用 bin/crawl,请切换到 Ubuntu。我相信这是爬虫脚本的一个错误。我之前遇到过这个问题并使用了 Ubuntu。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多