Commons Digester：如何使用 Apache Lucene 构建复杂的、基于 XML 的查询？答案

【问题标题】：Commons Digester: How to build complex, XML-based queries with Apache Lucene?Commons Digester：如何使用 Apache Lucene 构建复杂的、基于 XML 的查询？
【发布时间】：2011-07-04 11:46:13
【问题描述】：

我需要使用 Apache Lucene 和 Commons Digester 构建基于 XML 的查询。

我的文档格式如下：

<doc>
<id>361492799</id>
<title>Dan1</title>
<description>We had another Flickr meetup in Rochester, the biggest that Ive been to. 12 people showed up.Da, he was to the right.</description>
<time>18934934</time>
<tags>flickrmeetup rochester dan totheright 200701</tags>
<geo><latitude>324234</latitude><longitude>28342349</longitude></geo>
<event>135961</event>
</doc>

而且查询实际上也是一个文档，我需要与整个集合进行比较。每个属性都有不同的相似度度量。例如，“描述”具有 tf-idf 余弦相似度。 “时间”只是差值，“纬度”+“经度”使用半正弦距离进行比较。

目前我只使用简单的文本查询（例如“word1 word2”）执行搜索。我该如何构建更复杂的查询？

谢谢

【问题讨论】：

标签： java lucene apache-commons-digester

【解决方案1】：

我需要构建一个基于 XML 的查询 Apache Lucene 和 Commons Digester。

这个article 应该可以帮助您入门

要从xml中分析内容，请看TIKA

Apache Tika - 内容分析工具包

Apache Tika™ 是一个工具包，用于检测和提取元数据和来自各种结构化文本内容使用现有解析器的文档图书馆。

【讨论】：

谢谢，我已经解决了我的问题的第一部分，即解析数据。我现在需要构建一个与文档具有相同 (XML) 结构的查询。你知道我该怎么做吗？谢谢

【解决方案2】：

你看过 SOLR 吗？ SOLR 基本上是 Lucene+一个完整的基于 XML 的查询和索引服务器。

【讨论】：

我实际上不再需要解析器，而是使用与集合文档相同的 XML 结构构建查询