【发布时间】:2019-10-05 08:16:00
【问题描述】:
我已经浏览了[相关性评分背后的理论][1],并得到了两个相关问题
Q1 :- 因为 IDF 公式是 idf(t) = 1 + log ( numDocs / (docFreq + 1)),其中 numDocs 是索引中的文档总数。是否意味着每次在索引中添加新文档时,我们需要重新计算索引中所有现有文档的每个单词的IDF?
Q2 :- 下面提到的链接。我的问题是,为什么要针对每个字段而不是完整文档计算 TF/IDF 分数?
当我们在前面的公式中引用文档时,我们实际上是 谈论文档中的一个字段。每个领域都有自己的 倒排索引,因此,出于 TF/IDF 的目的,字段的值 是文档的价值。
【问题讨论】:
标签: elasticsearch tf-idf