tf-idf：我理解对了吗？答案

【问题标题】：tf-idf: am I understanding it right?tf-idf：我理解对了吗？
【发布时间】：2011-02-01 22:30:26
【问题描述】：

我有兴趣做一些文档聚类，现在我正在考虑为此使用 TF-IDF。

如果我没记错的话，TF-IDF 特别用于评估文档的相关性给定查询。如果我没有特定查询，如何将 tf-idf 应用于集群？

【问题讨论】：

【解决方案1】：

实际上并非如此：tf-idf 为您提供给定文档中某个术语的相关性。
因此，您可以通过计算邻近度完美地将它用于您的集群，这类似于

proximity(document_i, document_j) = sum(tf_idf(t,i) * tf_idf(t,j))

对于文档 i 和文档 j 中的每个术语 t。

【讨论】：

【解决方案2】：

用于文档聚类。最好的方法是使用 k-means 算法。如果你知道你有多少类型的文档，你就会知道 k 是什么。

使其适用于文档：

a) 说随机选择初始 k 个文档。

b) 使用文档与集群的最小距离将每个文档分配给集群。

c) 将文档分配到集群后，通过取每个集群的质心，将 K 个新文档作为集群。

现在问题来了

a) 如何计算 2 个文档之间的距离： 它只不过是文档与初始聚类的术语的余弦相似度。这里的术语不过是 TF-IDF（之前为每个文档计算的）

b) 质心应该是：给定term/no的TF-IDF之和。的文件。对集群中的所有可能项执行此操作。这将为您提供另一个 n 维文档。

希望对你有帮助！

【讨论】：

你能帮忙吗stackoverflow.com/questions/28642930/how-can-i-compute-mtf-idf
所以假设我有 3 个像这样的文档 {1.1, 0, 3.3, 4} {0, 2, 0, 3} {1, 1, 1, 1} 并且它们的质心是 { 2.1/3、3/3、4.3/3、8/3} 对吗？

【解决方案3】：

TF-IDF 有不同的用途；除非您打算重新发明轮子，否则最好使用Carrot 之类的工具。如果您希望自己实现一种算法，则在 Google 上搜索文档聚类可以为您提供多种算法。

【讨论】：