如何从不同的中心找到最佳 K-mean 聚类答案

【问题标题】：How to find Best K-mean Cluster from different center如何从不同的中心找到最佳 K-mean 聚类
【发布时间】：2013-04-23 20:33:37
【问题描述】：

我目前正在学习聚类。我已经执行了存储在我的数据库中的订阅者的 average_duration_of_call 的 k 均值集群。在第一次运行 3 个中心时，cluster1（53.33369 秒）-367 个订阅者，cluster2（121.67123 秒）-128 个订阅者，cluster3（369.09000 秒）-8 个订阅者。

我再次使用 center 6 重新运行聚类，获得的中心为 cluster1(904.66670 秒) -1 订阅者、cluster2(27.7 秒) - 108 订阅者、cluster3(151.58)-43 订阅者、cluster4 （95 秒）- 135 个订阅者，cluster5（59.5 秒）- 207 个订阅者，cluster6（278 秒）-9 个订阅者。

现在我的问题是哪个是最好的集群以及如何找到最好的集群。期待任何经验的帮助（我目前正在使用 R 语言）

【问题讨论】：

标签： cluster-analysis clustered-index

【解决方案1】：

如果您是初学者，那么我建议您开始基于密度的聚类，这样就不需要 K 的初始值。您最初可以使用 epsilon=10 和 minpts=5 启动 dbscan 集群，然后检查生成的集群的数量。之后，开始平滑增加 epsilon (11, 12, ... 15) 和减少 minpt (4, 3, ..1) 并检查每次生成的簇数。那么这些数字的平均值应该反映真实集群的平均数量。

但如果您需要应用 k-mean 聚类，那么您可能会发现 Selection of K in K-means clustering‎ 论文很有用。

【讨论】：

【解决方案2】：

好吧，k-means 已经为你的平方和计算了一个分数。

选择得分较高的结果。

但是，当您增加 k 时，分数自然会提高。显然，如果您将 k 设置为数据集大小，它将为 0。然后您可能想要使用 BIC 或剪影系数（在 Wikipedia 上查找）。

哦，考虑用一本书。这是一个经典问题，任何一本好书都应该涉及到这个问题。

【讨论】：

请给出本期的参考书名。
BIC 是指Bayesian information criterion 还是其他？
参见 Gan, Ma, Wu 的“Data Clustering”，其中非常详尽地介绍了存在的各种变体。事实上，许多分类繁重的书籍，例如 Weka 书籍，几乎没有涉及聚类。例如，查找 x-means 算法，我相信它使用 BIC。