【问题标题】:nutch 1.2 solr 3.1 integration issuenutch 1.2 solr 3.1 集成问题
【发布时间】:2013-07-08 11:49:02
【问题描述】:

我已经使用 NUTCH 1.2 成功爬取了一个站点。现在我想将它与 solr 3.1 集成。问题是当我发出命令 $ bin/nutch solrindex localhost:8080/solr/ crawl/crawldb crawl/linkdb cra wl/segments/* 时发生错误。我正在附上我的 nutch 日志

请帮我解决这个问题

错误请求

请求://localhost:8080/solr/update?wt=javabin&version=2 在 org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:436) 在 org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:245) 在 org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:105) 在 org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:49) 在 org.apache.nutch.indexer.solr.SolrWriter.close(SolrWriter.java:75) 在 org.apache.nutch.indexer.IndexerOutputFormat$1.close(IndexerOutputFormat.java:48) 在 org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474) 在 org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411) 在 org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216) 2013-07-08 17:38:47,577 错误 solr.SolrIndexer - java.io.IOException:作业失败!

【问题讨论】:

    标签: solr nutch java.lang.class


    【解决方案1】:

    您需要将以下 Apache Commons 库添加到类路径:commons-httpclient.jar(您可以将它放在与您的 nutch 安装使用的其他 JAR 所在的文件夹相同的文件夹中)。

    你可以在这里http://hc.apache.org/httpcomponents-client-ga/找到当前版本的HttpClient

    请注意,您的 Nutch 版本可能使用旧版本的 HttpClient,而当前版本的 HttpClient 不向后兼容旧版本。在这种情况下,您需要下载旧版本的 HttpClient 并将旧版本包含在您的库中。

    【讨论】:

    • 感谢您提供宝贵的见解。添加了 http 客户端 jar,但仍然存在一个错误 ...java.io.IOException: Job failed!
    • 欢迎您。这意味着您的问题已经解决,这个问题应该根据 SO 规则关闭。如果您在解决下一个错误 (IOException) 时遇到问题,那么您应该问另一个关于它的问题。而且您不应将新的错误消息添加到原始问题中。这不是 SO 的工作方式。
    • 关于 IOException,可能是由于无法访问 Internet。但这确实应该在一个新问题中讨论,这就是 Stackoverflow 的工作原理。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-12-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多