【发布时间】:2011-08-12 18:45:32
【问题描述】:
我正在寻找能够搜索部分术语的文档搜索引擎(如 Xapian、Whoosh、Lucene、Solr、Sphinx 或其他)。
例如,当搜索“brit”一词时,搜索引擎应返回包含“britney”或“britain”的文档,或者通常包含与 r*brit* 匹配的词的任何文档
我注意到大多数引擎都使用 TF-IDF(词频-逆文档频率)或其基于完整词而不是部分词的派生词。除了 TF-IDF 之外,还有没有其他成功实现文档检索的技术?
【问题讨论】:
-
我建议您将搜索引擎标签添加到您的问题、lucene、Xapian 或至少搜索引擎中。搜索是一个通用标签,对搜索引擎感兴趣的人可能会厌倦阅读各种与搜索引擎无关的问题的奇怪请求。祝你好运!
-
感谢您的建议。添加了更多标签。
-
您没有阅读各种引擎文档的任何原因。 Lucene(以及 Solr)支持通配符搜索:wiki.apache.org/lucene-java/…
标签: lucene solr information-retrieval xapian whoosh