【问题标题】:Determining optimal number of clusters and Davies–Bouldin Index?确定最佳聚类数和 Davies-Bouldin 指数?
【发布时间】:2013-01-01 06:16:53
【问题描述】:

我正在尝试评估对某些数据进行聚类所需的正确聚类数。

我知道使用 Davies–Bouldin Index (DBI) 可以做到这一点。

要使用 DBI,您必须为任意数量的集群计算它,并且最小化 DBI 的那个对应于所需的正确数量的集群。

问题是:

如何知道使用 DBI 的 2 个集群是否优于 1 个集群?那么,当我只有 1 个集群时,如何计算 DBI?

【问题讨论】:

    标签: machine-learning cluster-analysis


    【解决方案1】:

    只考虑所有集群的平均DBI 显然不是一个好主意。

    当然,增加集群的数量 - k,如果每个数据点都被认为是它自己的集群,那么在没有惩罚的情况下,总是会减少结果集群中的 DBI 数量,达到零 DBI 的极端情况(因为每个数据点与其自己的质心重叠)。

    如何知道使用 DBI 的 2 个集群是否优于 1 个集群?那么,当我只有 1 个集群时如何计算 DBI?

    因此,如果仅使用平均 DBI 作为性能指标,很难说哪个更好。

    一个很好的实用方法是使用Elbow method

    另一种方法将方差百分比解释为集群数量的函数:您应该选择多个集群,以便添加另一个集群不会提供更好的数据建模。更准确地说,如果你绘制集群解释的方差百分比与集群数量的关系图,第一个集群将添加很多信息(解释很多方差),但在某些时候边际增益会下降,给出一个角度图形。此时选择集群的数量,因此是“肘部标准”。

    关于选择最佳集群数量的其他一些不错的选择:

    【讨论】:

      猜你喜欢
      • 2011-06-22
      • 2022-08-19
      • 1970-01-01
      • 1970-01-01
      • 2016-08-30
      • 2018-06-10
      • 2014-09-08
      • 2013-02-28
      相关资源
      最近更新 更多