【发布时间】:2014-11-16 07:45:27
【问题描述】:
这是我的代码的一部分。
idf=self.getInverseDocFre(word) ##this idf is from the collection
qi=count*idf
di=self.docTermCount[docid][word]*idf
similiarity+=qi*di
similiarity/=self.docSize[docid]
这是维基百科 https://en.wikipedia.org/wiki/Vector_space_model#Example:_tf-idf_weights
这是一个来自网络的例子 http://www.site.uottawa.ca/~diana/csi4107/cosine_tf_idf_example.pdf
我的问题是,如果查询的 idf 与集合中的 idf 相同?
这就是为什么我必须将相似度乘以 idf 两次吗?
恐怕我对查询部分的idf概念有误。
【问题讨论】:
标签: python text-processing tf-idf