【发布时间】:2013-09-16 21:30:44
【问题描述】:
让我们假设以下情况。
-
Lucene 文档:ArticleDocument
字段:{Id, text, publisherId}
一个发布者可以发布多篇文章。
问题
我想为每个 Publisher Id 构建词云(最常见的词,shingles)。
经过我的调查,我可以找到方法来获取整个索引或文档但不是文档子集的最常用术语。我找到了similar question,但那是 Lucene 2.x我希望在最近的 Lucene 中存在一种有效的方法。
请您指导我在 Lucene 4.x(首选)或 3.x(最新版本 3)中执行该操作的方法。
请注意,我不能让每个 Publisher 都成为一个将所有文章都附加到一个字段的文档。
那是因为我希望云中的这些词可以搜索到相应的文章(通过相同的发布者 ID)作为结果。
我不确定维护两种类型的 lucene 文档(文章和发布者)在维护和性能方面是否是一个好主意。
【问题讨论】:
标签: solr lucene tag-cloud word-cloud