【发布时间】:2023-04-06 20:41:01
【问题描述】:
我一直在尝试确定一组文档之间的相似度,我使用的一种方法是与 TF-IDF 结果的余弦相似度。
我尝试同时使用 sklearn 和 gensim 的实现,这给了我相似的结果,但我自己的实现导致不同的矩阵。
经过分析,我注意到它们的实现与我研究和遇到的不同:
Sklearn 和 gensim 使用原始计数作为 TF,并应用 L2 范数 在结果向量上。
另一方面,我发现的实现将使术语计数正常化, 喜欢
TF = term count / sum of all term counts in the document
我的问题是,它们的实现有什么区别?对于聚类或其他目的,它们最终会给出更好的结果吗?
编辑(所以问题更清楚了): 标准化最终结果与标准化开始时的术语计数有什么区别?
【问题讨论】:
标签: scikit-learn tf-idf gensim