【问题标题】:integrate nutch 2.3.1 with solr 6.4.1 , something wrong with indexing job将 nutch 2.3.1 与 solr 6.4.1 集成,索引工作有问题
【发布时间】:2017-03-01 14:09:41
【问题描述】:

最近我在学习 Nutch,当我完成 Nutch 和 Solr 设置时。我想尝试用 Nutch 爬行并索引到 Solr。索引作业时发生一些错误。错误如下:

SolrIndexerJob: org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:


Expected content type application/octet-stream but got text/html;charset=iso-8859-1.


at org.apache.solr.client.solrj.impl.HttpSolrServer.request(HttpSolrServer.java:455)
at org.apache.solr.client.solrj.impl.HttpSolrServer.request(HttpSolrServer.java:197)
at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:117)
at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:168)
at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:146)
at org.apache.nutch.indexwriter.solr.SolrIndexWriter.commit(SolrIndexWriter.java:146)
at org.apache.nutch.indexer.IndexWriters.commit(IndexWriters.java:124)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:186)
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:202)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:211)

如果有人能给我一些建议,我将不胜感激。提前致谢。

【问题讨论】:

标签: java solr nutch


【解决方案1】:

您需要为 Nutch 指定集合或核心的 Solr url,因此 url http://localhost:8983/solr/collection1 有意义。但是您应该使用 Nutch 的 suggestions versions 的每个工具来使整个生态系统正常工作。

Apache Avro 1.7.6
Apache Hadoop 1.2.1 and 2.5.2
Apache HBase 0.98.8-hadoop2 (although also tested with 1.X)
Apache Cassandra 2.0.2
Apache Solr 4.10.3
MongoDB 2.6.X
Apache Accumlo 1.5.1
Apache Spark 1.4.1

我会建议使用Solr-5.2.1 作为它比4.10.3 最新的版本,并且我已经在我的项目中使用了它。我记得,我在尝试使用 Solr 6+ 时遇到了与您相同的异常。

祝你好运!

【讨论】:

  • 谢谢,我会对此进行测试
猜你喜欢
  • 1970-01-01
  • 2017-09-17
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-05-21
  • 1970-01-01
相关资源
最近更新 更多