【问题标题】:Solr extract data from the index to a XML fileSolr 从索引中提取数据到 XML 文件
【发布时间】:2013-01-04 12:56:35
【问题描述】:

我们有客户提供的索引文件,现在想通过删除重复的文档来重新索引它们

Solr deduplication

为此,我必须从索引中读取数据,并且必须生成一个 XML 文件或 CSV 文件,然后对它们进行索引并消除重复项

(如果我错了,请纠正我,我没有找到任何其他方法)

我知道使用 Lucene 可以做到这一点,但我想知道如何使用 solr 来做到这一点

【问题讨论】:

  • 您是否考虑过如何访问索引中已编入索引但未存储的数据?简单地查询所有文档可能不一定检索到用于构建索引的所有数据。

标签: java xml csv solr lucene


【解决方案1】:

您可以通过将wt参数设置为xml来更改导出格式 ...&wt=xml你的 Solr 查询。

这会将结果导出到 xml。因此,如果您搜索 *,您将获得完整的内容 - 取决于 limit 参数。

http://wiki.apache.org/solr/CoreQueryParameters#wt

这也适用于 csv:http://wiki.apache.org/solr/CSVResponseWriter

【讨论】:

  • 你也可以在链接中添加一个xslt文件,这样数据就会被转换成你想要的结构。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-07-22
  • 2013-07-28
  • 2013-03-20
  • 2012-09-25
  • 1970-01-01
相关资源
最近更新 更多