【发布时间】:2015-01-29 12:17:33
【问题描述】:
我收藏了多种语言的书籍。我需要根据它们的相似性将每本书的各个部分相互链接。我需要将书籍链接到类似的书籍,将章节链接到类似的章节,将子章节链接到类似的子章节。
最好,相似度度量还考虑下一个最高级别的相似度,所以当我想比较两章时,它会首先检查章节所属的书籍彼此之间的相似度,并将其用作一个基线。我想这部分我必须手动实现,但我想知道如何有效地进行分层链接。
有没有办法告诉 lucene 索引中的文档遵循层次结构,其中书籍由章节组成,章节由子章节组成(哪些是要存储的实际文档)?如果是这样,书籍和章节可以在运行时通过组合它们组成的文档来构建。 lucene 有办法做到这一点吗?
一种简单的替代方法是为每个分辨率级别创建单独的索引,即一个用于书籍,一个用于章节,一个用于子章节。但这似乎不优雅,考虑到我会在不同的索引中获得不同的逆文档频率值,我不确定这是否会奏效。这就引出了第二个问题:有没有办法让 lucene 只考虑某些文档作为其 tf-idf 计算的参考类?
【问题讨论】:
标签: java lucene similarity recursive-query tf-idf