聚类数据和 KMeans 聚类中心的标签答案

【问题标题】：Labels of clustered data and KMeans cluster centers聚类数据和 KMeans 聚类中心的标签
【发布时间】：2021-10-09 02:53:32
【问题描述】：

关于Starting question的问题我对计算聚类中心的坐标和标记中心有疑问：

kmeans.cluster_centers_

给予

[[ 4.87744023 -0.48344163]
[ 8.29540909  6.7398487 ]
[ 1.05638163  3.84314976]]

我对中心的顺序感到困惑。第一个是“绿色”集群（图中的标签 2），第二个是“红色”集群（图中的标签 0），最后一个是“蓝色”集群，图中标签为 1。其背后的逻辑是什么？

另外，如果我将聚类数据标记为聚类的起点——例如葡萄酒质量数据集WineQuality 或 Twitter 情绪分析Twitter sentiment analisys。我知道集群的标签，并希望将它们保留为集群的标签，当然还要将它们与集群中心相关联？

【问题讨论】：

【解决方案1】：

簇的顺序通常是任意的；它们没有任何意义。这可能取决于处理数据点的顺序，但实际上并没有任何区别，因为它们只是标签。

如果您的数据点已经有标签，那么只需取离每个集群中心最近的 n 个数据点，并为其分配最频繁的标签。您不太可能像示例中那样获得完美的聚类，因为通常会将数据点分配给不同的聚类或聚类之间。

程序基本上是：

【讨论】：