【问题标题】:Cluster labels comparison - label match集群标签比较 - 标签匹配
【发布时间】:2020-12-14 00:53:30
【问题描述】:

我正在比较不同的聚类方法。例如使用 K-means 进行凝聚聚类、从样本中进行预测等。

我在 python 中,主要使用 pandas 和 sklearn。

当然,我遇到的问题是每个算法分配给观测值的簇号都不同,我得到的结果与此类似:

我为 8 个集群手动执行此操作,但如果我有更多集群,那就是一场噩梦。

我认为这个想法是根据观察结果的共同点来重新标记结果。目前是比较相同数量的集群时应该更容易。

谢谢!

【问题讨论】:

    标签: python pandas scikit-learn cluster-analysis


    【解决方案1】:

    使用两个模型的输出构建一个contingency matrix。如果您想要相似类型的评分,请使用adjusted rand index.

    【讨论】:

    • 问题是集群的标签不一样。在一种聚类方法中,由于聚类方法不同,可以将一个聚类标记为 2,将另一个聚类标记为 5。我该如何解决这个问题,所以在比较之前,它们的标签指的是相同的集群?
    • 你没有解决这个问题。您确保每个输入的样本顺序相同,并且 ARI/应急矩阵方法使用您的 _label 数组中的位置来确定它们的身份。
    猜你喜欢
    • 2021-06-18
    • 2012-07-25
    • 2012-07-20
    • 2020-12-05
    • 2020-07-21
    • 1970-01-01
    • 2018-10-29
    • 2018-10-10
    • 1970-01-01
    相关资源
    最近更新 更多