【问题标题】:How to index wikipedia files in .xml format into solr如何将 .xml 格式的维基百科文件索引到 solr
【发布时间】:2012-04-03 19:54:44
【问题描述】:

我想将维基百科的 xml 文件索引到 Solr 中。

但是我收到一个错误,它无法索引。 Solr 具有特定的 xml 文件格式。我更改了schema.xmldata-config.xml 文件以适应维基百科文件的标签。

仍然无法索引文件。我的实际意图是索引维基百科,它是一个 30 GB 的 xml 文件。

我将如何将所有维基百科文件索引到 Solr 中?

【问题讨论】:

标签: xml solr indexing wikipedia


【解决方案1】:

There's an example section in the DataImportHandler documentation for exactly this: indexing Wikipedia.

基本上,您使用 DataImportHandler 和一些 XPath 将您关心的元数据从 Wikipedia XML 中提取出来,并将其放入平面 Solr 字段列表中。

【讨论】:

  • 我试过了,但它不起作用....文件被提交,但是当我搜索它时,它没有找到任何文件
  • 你确定文件在里面吗?当您搜索 *:* 时会发生什么?
  • 当我搜索它时,即使 : 也没有显示任何结果,因为没有任何内容被编入索引
  • 好的,为您再做一次健全性检查。添加文件后是否正在执行<commit> 操作? See this page for how to do that - 大多数 Solr 库和包装器将使这变得非常容易。
猜你喜欢
  • 2013-12-26
  • 2013-05-11
  • 1970-01-01
  • 2011-12-13
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多