调整后的兰特指数（ARI）答案

【问题标题】：adjusted rand index (ARI)调整后的兰特指数（ARI）
【发布时间】：2017-03-08 19:20:02
【问题描述】：

为什么在聚类方法中使用调整后的兰德指数 (ARI) 和归一化互信息 (NMI) 会比简单的测试分数（例如 MSE）产生更好的测量结果？我知道哪个点属于哪个簇在聚类算法中很重要，标签是任意的。

【问题讨论】：

【解决方案1】：

您自己回答了 - 集群没有“MSE”，因为只有在您知道因变量的值时才定义 MSE。在聚类中，它不仅是任意分配的，甚至没有“数字”的概念，而且 MSE 是回归度量，它对数字而不是类进行操作。现在，为什么不通过简单地计算所有可能的标签排列来使用准确性呢？好吧，这（几乎）正是 RandIndex 的含义，尽管它起源于不同的社会，并且名称不同，但它与集群和标签之间的映射关系非常密切。那么什么是调整兰德指数？无非是 RandIndex /（几乎）准确度和修正，它告诉你完全随机分类器的行为。因此，它实际上是由随机分类器的准确度归一化的准确度度量的转换。

这些“小差异”只是考虑到集群具有一些附加属性，例如：

簇（标签）的数量不是先验的
您需要对平凡模型进行校正，这可能很难弄清楚（对于分类，通常很简单地说平凡模型的准确度是多少）

尤其是第一部分很重要，考虑聚类：

clustering   [o o o o][o o o o][o o o o ]
truth        [o o o o  o o o o][o o o o ]

发生的唯一“坏事”是我们将一个班级分成两部分。如果我们使用准确率，我们会得到 75%（因为一半被简单地认为是“差”），但如果我们考虑 rand 指数，它实际上会分配比 for 高得多的分数：

clustering   [o][o][o][o][o o o o][o o o o ]
truth        [o  o  o  o  o o o o][o o o o ]

准确率也将达到 75%。我认为第一个聚类确实比第二个更好。

换句话说，这些指标与经典分类指标密切相关，它们只是引入了额外的风格来区分（大部分）具有不同数量的集群。这里的主要原因是在集群中你关心结构，而不是逐点标签。

【讨论】：

感谢您的解释。