【发布时间】:2015-05-29 10:25:44
【问题描述】:
我是 nutch 和 solr 集成的新手。
我想抓取新的 url,所以我在 ubuntu 中安装了 solr 4.6.0 版和 nutch 1.6 版。首先我从一些配置开始,但我仍然得到这个错误:
org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:文件:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_fetch
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin /20150529030452/crawl_parse
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_data
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_text
在文件日志中我收到此错误:
2015-05-29 03:05:41,153 错误 security.UserGroupInformation -PriviledgedActionException as:cloudera
原因:org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:文件:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_fetch
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_parse
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_data
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_text
2015-05-29 03:05:41,153 错误 solr.SolrIndexer - org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:文件:/home/cloudera/apache-nutch-1.6/bin/20150529030452 /crawl_fetch
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_parse
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_data
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse_text
这是什么意思,你能解释一下是什么问题,我该如何解决。
非常感谢您的帮助。
【问题讨论】:
标签: java hadoop solr fetch nutch