集群标签比较 - 标签匹配答案

【问题标题】：Cluster labels comparison - label match集群标签比较 - 标签匹配
【发布时间】：2020-12-14 00:53:30
【问题描述】：

我正在比较不同的聚类方法。例如使用 K-means 进行凝聚聚类、从样本中进行预测等。

我在 python 中，主要使用 pandas 和 sklearn。

当然，我遇到的问题是每个算法分配给观测值的簇号都不同，我得到的结果与此类似：

我为 8 个集群手动执行此操作，但如果我有更多集群，那就是一场噩梦。

我认为这个想法是根据观察结果的共同点来重新标记结果。目前是比较相同数量的集群时应该更容易。

谢谢！

【问题讨论】：

【解决方案1】：

使用两个模型的输出构建一个contingency matrix。如果您想要相似类型的评分，请使用adjusted rand index.

【讨论】：

问题是集群的标签不一样。在一种聚类方法中，由于聚类方法不同，可以将一个聚类标记为 2，将另一个聚类标记为 5。我该如何解决这个问题，所以在比较之前，它们的标签指的是相同的集群？
你没有解决这个问题。您确保每个输入的样本顺序相同，并且 ARI/应急矩阵方法使用您的 _label 数组中的位置来确定它们的身份。