【问题标题】:Labels of clustered data and KMeans cluster centers聚类数据和 KMeans 聚类中心的标签
【发布时间】:2021-10-09 02:53:32
【问题描述】:

关于Starting question的问题我对计算聚类中心的坐标和标记中心有疑问:

kmeans.cluster_centers_

给予

[[ 4.87744023 -0.48344163]
[ 8.29540909  6.7398487 ]
[ 1.05638163  3.84314976]]

我对中心的顺序感到困惑。第一个是“绿色”集群(图中的标签 2),第二个是“红色”集群(图中的标签 0),最后一个是“蓝色”集群,图中标签为 1。其背后的逻辑是什么?

另外,如果我将聚类数据标记为聚类的起点——例如葡萄酒质量数据集WineQuality 或 Twitter 情绪分析Twitter sentiment analisys。我知道集群的标签,并希望将它们保留为集群的标签,当然还要将它们与集群中心相关联?

【问题讨论】:

    标签: nlp cluster-analysis k-means centroid


    【解决方案1】:

    簇的顺序通常是任意的;它们没有任何意义。这可能取决于处理数据点的顺序,但实际上并没有任何区别,因为它们只是标签。

    如果您的数据点已经有标签,那么只需取离每个集群中心最近的 n 个数据点,并为其分配最频繁的标签。您不太可能像示例中那样获得完美的聚类,因为通常会将数据点分配给不同的聚类或聚类之间。

    程序基本上是:

    1. 为每个集群设置一个(空)列表。
    2. 对于每个带标签的数据点,找到最近的中心并将标签添加到其列表中
    3. 对于每个集群,计算每个标签在其列表中出现的次数并选择最高值的标签。

    【讨论】:

      猜你喜欢
      • 2012-04-02
      • 2020-12-03
      • 2020-05-03
      • 2016-02-02
      • 2018-08-17
      • 1970-01-01
      • 2013-08-17
      • 2021-02-04
      • 2018-08-13
      相关资源
      最近更新 更多