【发布时间】:2013-11-15 21:45:29
【问题描述】:
我有一个运行 Nutch 的服务器,它为 Solr 提供数据。 Nutch 的输入是一个 rss 提要的 xml,它似乎使用了正确的提要插件来解析它。
在运行基本爬取时,它会正确爬取和识别 xml 中的各种链接,并索引正确数量的文档。但是,SolrDeleteDuplicates 似乎删除了除一个之外的所有内容 - 没有被删除的那个似乎是随机的。
Indexing 21 documents
SolrIndexer: finished at 2013-11-15 13:53:53, elapsed: 00:00:22
SolrDeleteDuplicates: starting at 2013-11-15 13:35:53
SolrDeleteDuplicates: Solr url: http://localhost:8983/solr
SolrDeleteDuplicates: deleting 20 duplicates
有什么想法吗?
【问题讨论】:
标签: solr rss indexing duplicates nutch