【发布时间】:2013-02-07 18:20:17
【问题描述】:
我有一个包含许多不同文档类型的应用程序。每种类型都有自己的语料库,我不希望它们相互影响。
例如,如果一种类型包含多次出现的术语 X,那么我不希望这会降低 X 在其他类型中的 IDF 分数。
我知道这可以使用多个索引来实现,但我有很多类型,其中一些包含少量文档。因此,每种类型的索引都会对性能产生不良影响。
有没有什么方法可以让每种类型都有一个唯一的术语向量和一个索引?
我还没有选择任何搜索引擎实现,所以我会感谢 Elasticsearch 和/或 Solr 的答案。
【问题讨论】:
-
为您希望完全分开的术语创建单独的索引似乎是合乎逻辑的路线。我认为您只希望使用任何给定查询搜索单一类型是否正确?在这种情况下,您预计哪些操作会表现不佳?
-
虽然我的搜索发生在单一类型中,但我也搜索了应该在所有类型上运行的搜索。我担心第二种情况的性能,但主要是担心支持 100k 索引所需的硬件数量。
标签: solr lucene elasticsearch