【问题标题】:Nutch + Solr; SolrDeleteDuplicates deletes all but one indexNutch + Solr; SolrDeleteDuplicates 删除除一个索引之外的所有索引
【发布时间】:2013-11-15 21:45:29
【问题描述】:

我有一个运行 Nutch 的服务器,它为 Solr 提供数据。 Nutch 的输入是一个 rss 提要的 xml,它似乎使用了正确的提要插件来解析它。

在运行基本爬取时,它会正确爬取和识别 xml 中的各种链接,并索引正确数量的文档。但是,SolrDeleteDuplicates 似乎删除了除一个之外的所有内容 - 没有被删除的那个似乎是随机的。

 Indexing 21 documents
 SolrIndexer: finished at 2013-11-15 13:53:53, elapsed: 00:00:22
 SolrDeleteDuplicates: starting at 2013-11-15 13:35:53
 SolrDeleteDuplicates: Solr url: http://localhost:8983/solr
 SolrDeleteDuplicates: deleting 20 duplicates

有什么想法吗?

【问题讨论】:

    标签: solr rss indexing duplicates nutch


    【解决方案1】:

    您很可能错误地配置了重复数据删除设置,以查看所有条目都相同的字段。所以,Solr 认为它们都是相同的记录。

    如果没有,请使用重复数据删除组件的配置更新您的问题。

    【讨论】:

      猜你喜欢
      • 2012-04-28
      • 2020-02-02
      • 2012-09-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-11-23
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多