【问题标题】:adjusted rand index (ARI)调整后的兰特指数(ARI)
【发布时间】:2017-03-08 19:20:02
【问题描述】:

为什么在聚类方法中使用调整后的兰德指数 (ARI) 和归一化互信息 (NMI) 会比简单的测试分数(例如 MSE)产生更好的测量结果? 我知道哪个点属于哪个簇在聚类算法中很重要,标签是任意的。

【问题讨论】:

    标签: machine-learning


    【解决方案1】:

    您自己回答了 - 集群没有“MSE”,因为只有在您知道因变量的 时才定义 MSE。在聚类中,它不仅是任意分配的,甚至没有“数字”的概念,而且 MSE 是回归度量,它对数字而不是类进行操作。现在,为什么不通过简单地计算所有可能的标签排列来使用准确性呢?好吧,这(几乎)正是 RandIndex 的含义,尽管它起源于不同的社会,并且名称不同,但它与集群和标签之间的映射关系非常密切。那么什么是调整兰德指数?无非是 RandIndex /(几乎)准确度和修正,它告诉你完全随机分类器的行为。因此,它实际上是由随机分类器的准确度归一化的准确度度量的转换。

    这些“小差异”只是考虑到集群具有一些附加属性,例如:

    • 簇(标签)的数量不是先验的
    • 您需要对平凡模型进行校正,这可能很难弄清楚(对于分类,通常很简单地说平凡模型的准确度是多少)

    尤其是第一部分很重要,考虑聚类:

    clustering   [o o o o][o o o o][o o o o ]
    truth        [o o o o  o o o o][o o o o ]
    

    发生的唯一“坏事”是我们将一个班级分成两部分。如果我们使用准确率,我们会得到 75%(因为一半被简单地认为是“差”),但如果我们考虑 rand 指数,它实际上会分配比 for 高得多的分数:

    clustering   [o][o][o][o][o o o o][o o o o ]
    truth        [o  o  o  o  o o o o][o o o o ]
    

    准确率也将达到 75%。我认为第一个聚类确实比第二个更好。

    换句话说,这些指标与经典分类指标密切相关,它们只是引入了额外的风格来区分(大部分)具有不同数量的集群。这里的主要原因是在集群中你关心结构,而不是逐点标签。

    【讨论】:

    • 感谢您的解释。
    猜你喜欢
    • 2020-05-14
    • 2017-07-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多