【问题标题】:How to find Best K-mean Cluster from different center如何从不同的中心找到最佳 K-mean 聚类
【发布时间】:2013-04-23 20:33:37
【问题描述】:

我目前正在学习聚类。我已经执行了存储在我的数据库中的订阅者的 average_duration_of_call 的 k 均值集群。在第一次运行 3 个中心时,cluster1(53.33369 秒)-367 个订阅者,cluster2(121.67123 秒)-128 个订阅者,cluster3(369.09000 秒)-8 个订阅者。

我再次使用 center 6 重新运行聚类,获得的中心为 cluster1(904.66670 秒) -1 订阅者、cluster2(27.7 秒) - 108 订阅者、cluster3(151.58)-43 订阅者、cluster4 (95 秒)- 135 个订阅者,cluster5(59.5 秒)- 207 个订阅者,cluster6(278 秒)-9 个订阅者。

现在我的问题是哪个是最好的集群以及如何找到最好的集群。期待任何经验的帮助(我目前正在使用 R 语言)

【问题讨论】:

    标签: cluster-analysis clustered-index


    【解决方案1】:

    如果您是初学者,那么我建议您开始基于密度的聚类,这样就不需要 K 的初始值。您最初可以使用 epsilon=10 和 minpts=5 启动 dbscan 集群,然后检查生成的集群的数量。之后,开始平滑增加 epsilon (11, 12, ... 15) 和减少 minpt (4, 3, ..1) 并检查每次生成的簇数。那么这些数字的平均值应该反映真实集群的平均数量。

    但如果您需要应用 k-mean 聚类,那么您可能会发现 Selection of K in K-means clustering‎ 论文很有用。

    【讨论】:

      【解决方案2】:

      好吧,k-means 已经为你的平方和计算了一个分数。

      选择得分较高的结果。

      但是,当您增加 k 时,分数自然会提高。显然,如果您将 k 设置为数据集大小,它将为 0。然后您可能想要使用 BIC 或剪影系数(在 Wikipedia 上查找)。

      哦,考虑用一本书。这是一个经典问题,任何一本好书都应该涉及到这个问题。

      【讨论】:

      • 请给出本期的参考书名。
      • BIC 是指Bayesian information criterion 还是其他?
      • 参见 Gan, Ma, Wu 的“Data Clustering”,其中非常详尽地介绍了存在的各种变体。事实上,许多分类繁重的书籍,例如 Weka 书籍,几乎没有涉及聚类。例如,查找 x-means 算法,我相信它使用 BIC。
      猜你喜欢
      • 2017-09-12
      • 2015-07-29
      • 2014-05-02
      • 2011-12-08
      • 2021-10-11
      • 2017-06-30
      • 2021-02-07
      • 2017-10-08
      相关资源
      最近更新 更多