【问题标题】:Commons Digester: How to build complex, XML-based queries with Apache Lucene?Commons Digester:如何使用 Apache Lucene 构建复杂的、基于 XML 的查询?
【发布时间】:2011-07-04 11:46:13
【问题描述】:

我需要使用 Apache Lucene 和 Commons Digester 构建基于 XML 的查询。

我的文档格式如下:

<doc>
<id>361492799</id>
<title>Dan1</title>
<description>We had another Flickr meetup in Rochester, the biggest that Ive been to. 12 people showed up.Da, he was to the right.</description>
<time>18934934</time>
<tags>flickrmeetup rochester dan totheright 200701</tags>
<geo><latitude>324234</latitude><longitude>28342349</longitude></geo>
<event>135961</event>
</doc>

而且查询实际上也是一个文档,我需要与整个集合进行比较。每个属性都有不同的相似度度量。例如,“描述”具有 tf-idf 余弦相似度。 “时间”只是差值,“纬度”+“经度”使用半正弦距离进行比较。

目前我只使用简单的文本查询(例如“word1 word2”)执行搜索。我该如何构建更复杂的查询?

谢谢

【问题讨论】:

    标签: java lucene apache-commons-digester


    【解决方案1】:

    我需要构建一个基于 XML 的查询 Apache Lucene 和 Commons Digester。

    这个article 应该可以帮助您入门

    要从xml中分析内容,请看TIKA

    Apache Tika - 内容分析 工具包

    Apache Tika™ 是一个工具包,用于 检测和提取元数据和 来自各种结构化文本内容 使用现有解析器的文档 图书馆。

    【讨论】:

    • 谢谢,我已经解决了我的问题的第一部分,即解析数据。我现在需要构建一个与文档具有相同 (XML) 结构的查询。你知道我该怎么做吗?谢谢
    【解决方案2】:

    你看过 SOLR 吗? SOLR 基本上是 Lucene+一个完整的基于 XML 的查询和索引服务器。

    【讨论】:

    • 我实际上不再需要解析器,而是使用与集合文档相同的 XML 结构构建查询
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-03-13
    • 2010-10-06
    • 1970-01-01
    • 2021-12-23
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多