了解 scikit-learn KMeans 返回的“分数”答案

【问题标题】：Understanding "score" returned by scikit-learn KMeans了解 scikit-learn KMeans 返回的“分数”
【发布时间】：2015-11-28 23:42:57
【问题描述】：

我对一组文本文档（大约 100 个）应用了聚类。我使用TfIdfVectorizer 将它们转换为Tfidf 向量，并将向量作为输入提供给scikitlearn.cluster.KMeans(n_clusters=2, init='k-means++', max_iter=100, n_init=10)。现在当我

model.fit()
print model.score()

在我的向量上，如果所有文本文档都非常相似，我会得到一个非常小的值，如果文档非常不同，我会得到一个非常大的负值。

我的基本目的是查找哪组文档相似，但有人可以帮我理解这个model.score() 值究竟意味着什么？我如何使用这个值来证明我的发现是正确的？

【问题讨论】：

标签： python scikit-learn k-means

【解决方案1】：

在文档中它说：

Returns:    
score : float
Opposite of the value of X on the K-means objective.

要了解这意味着什么，您需要查看 k-means 算法。 k-means 本质上所做的是找到使数据样本与其相关聚类中心之间的距离总和最小化的聚类中心。

这是一个两步过程，其中 (a) 每个数据样本与其最近的聚类中心相关联，(b) 聚类中心被调整为位于与其相关联的所有样本的中心。重复这些步骤，直到满足一个标准（最大迭代次数/最后两次迭代之间的最小变化）。

如您所见，数据样本与其关联的聚类中心之间仍有距离，我们最小化的目标是该距离（所有距离的总和）。

如果您的数据样本种类繁多，如果数据样本的数量明显高于集群的数量（在您的情况下只有两个），那么您自然会获得较大的距离。相反，如果所有数据样本都相同，则无论聚类数量如何，您总是会得到零距离。

不过，从文档中我希望所有值都是负数。如果您同时观察到负值和正值，那么分数可能还不止这些。

我想知道您是如何想到将集群分成两个集群的。

【讨论】：

谢谢。这有帮助......我一直在试验集群的数量。就像您提到的那样，如果文档相似，则距离将始终为零（或非常接近）。只是我需要知道 score() 函数究竟返回了什么（就集群评估而言）。例如在分类中，score() 返回准确率。
要知道分数究竟返回什么，您可能需要查看软件本身。但是这里定义了 K-means 的目标：en.wikipedia.org/wiki/K-means_clustering#Description 如您所见，它非常简单。对我来说，您似乎获得了一种对您有所帮助的测量方法，但只是您想要测量的结果的近似值，并带有一些副作用。

【解决方案2】：

ypnos 是对的，你可以在这里找到一些细节： https://github.com/scikit-learn/scikit-learn/blob/51a765a/sklearn/cluster/k_means_.py#L893

inertia : float
    Sum of distances of samples to their closest cluster center.
"""

【讨论】：

【解决方案3】：

文档选择的词有点混乱。它说“与 K-means 目标上 X 的值相反。” 这意味着 K-means 目标的负数。

K-Means 目标

K-means 的目标是减少点与其各自簇质心的距离的平方和。它还有其他名称，如 J-Squared 误差函数、J-score 或簇内平方和。该值说明集群的内部一致性。（越少越好）

目标函数可以通过以下方法直接得到。

model.inertia_

【讨论】：