【发布时间】:2014-12-11 12:24:14
【问题描述】:
对于我们 Solr 文档的特定方面字段,能够通过它们的相对“有趣性”(即它们的 tf-idf 分数,而不是流行度)对方面进行排序会更有意义。这样可以很容易地自动删除不需要的常用英语单词,因为它们的 TF 和 DF 都很高。
进行查询时,应使用参与结果列表的所有文档计算 TF。
我认为这种方法的唯一问题是当没有进行查询时,或者当人们搜索“:”时。那么,就趣味性而言,没有一个术语会胜过其他术语。如果我在这里错了,请纠正我。
无论如何,这可能吗?您还建议对“趣味性”进行哪些其他相对测量?
【问题讨论】:
标签: solr facet faceted-search tf-idf