【问题标题】:Nutch 1.8 and Apache Solr 4.8 integration job failNutch 1.8 和 Apache Solr 4.8 集成作业失败
【发布时间】:2014-07-01 21:17:15
【问题描述】:

我正在尝试在 Windows 7 上使用 Nutch 1.8 和 Solr 4.8 抓取网络。

bin/crawl urls newsolr http://localhost:8983/solr/ 1 -depth 1

我不断收到以下错误

Indexer: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
    at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:114)
    at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:176)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:186)

这是日志文件的一部分:

2014-07-01 16:58:33,613 INFO  solr.SolrMappingReader - source: content dest: content
2014-07-01 16:58:33,613 INFO  solr.SolrMappingReader - source: title dest: title
2014-07-01 16:58:33,613 INFO  solr.SolrMappingReader - source: host dest: host
2014-07-01 16:58:33,613 INFO  solr.SolrMappingReader - source: segment dest: segment
2014-07-01 16:58:33,613 INFO  solr.SolrMappingReader - source: boost dest: boost
2014-07-01 16:58:33,613 INFO  solr.SolrMappingReader - source: digest dest: digest
2014-07-01 16:58:33,613 INFO  solr.SolrMappingReader - source: tstamp dest: tstamp
2014-07-01 16:58:33,613 INFO  solr.SolrMappingReader - source: url dest: id
2014-07-01 16:58:33,613 INFO  solr.SolrMappingReader - source: url dest: url
2014-07-01 16:58:33,643 INFO  solr.SolrIndexWriter - Indexing 1 documents
2014-07-01 16:58:33,773 WARN  mapred.LocalJobRunner - job_local_0001
org.apache.solr.common.SolrException: Method Not Allowed

Method Not Allowed

request: http://localhost:8983/solr/
    at org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:430)
    at org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:244)
    at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:105)
    at org.apache.nutch.indexwriter.solr.SolrIndexWriter.close(SolrIndexWriter.java:155)
    at org.apache.nutch.indexer.IndexWriters.close(IndexWriters.java:118)
    at org.apache.nutch.indexer.IndexerOutputFormat$1.close(IndexerOutputFormat.java:44)
    at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474)
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216)
2014-07-01 16:58:34,628 ERROR indexer.IndexingJob - Indexer: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
    at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:114)
    at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:176)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:186)

最后是Solr的错误日志:

org.apache.solr.common.SolrException: ERROR: [doc=http://.com/] unknown field 'tstamp' `

这是我的第一个 solr/nutch 设置。

【问题讨论】:

  • 请说出你在做什么,到目前为止你在整个事情的设置中做了什么以及你试图解决这个问题
  • 我正在尝试使用 Nutch 抓取网站并将其加载到 Solr。我已经使用 Cygwyin 安装了 Nutch 1.8,并在 Windows 7 上使用 Heliosearch 发行版安装了 Solr 4.8。Nutch 和 Solr 工作正常,但是当我使用包括 Solr 实例 (localhost:8983) 的 Nutch 运行爬网时,我得到了上面提到的错误。将 Nutch schema-solr4.xml 文件复制到 Solr 中不起作用。我还研究了未知字段 'tstamp' 错误并尝试将 schema.xml 中的字段修改为 .
  • 而不是原来的 ,但似乎没有任何效果。
  • Solr 启动时是否会产生任何其他错误?错误消息表明架构中缺少该字段,那么您在管理界面中看到该字段了吗?

标签: apache solr nutch


【解决方案1】:

只需停止 solr 实例并重新启动它。它应该可以解决您的问题。 发生错误是因为您对架构文件进行了更改并且没有重新启动 solr 以保存更改,因此 solr 无法“看到”新添加的字段。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-09-17
    • 2013-05-16
    • 1970-01-01
    • 2014-03-04
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多