聚类标签的无偏预测答案

【问题标题】：Unbiased prediction of cluster labels聚类标签的无偏预测
【发布时间】：2015-06-21 03:53:44
【问题描述】：

我有兴趣评估通过无监督聚类发现的聚类标签的可预测性。假设我有一个由患者组成的数据集，并且我使用无监督聚类技术根据他们的基因表达谱对他们进行分组。我的方法发现了 4 个集群。现在，我想知道这个集群成员是否可以从表达式数据中预测出来。使用全数据无监督聚类标签作为输出变量，我以交叉验证的方式训练监督分类器。因此，我使用 80% 的数据训练分类器，并评估另外 20% 的准确度。

这种方法是否有偏差，因为输出的集群标签是从完整数据中学习的？如果是，我怎样才能以公正的方式做到这一点？如果我以交叉验证的方式进行聚类，我想我需要手动关联每个不同折叠之间的聚类。由于我对四个集群中的一个集群与其他集群的可预测性特别感兴趣，因此我必须通过某种手动分析找出数据的每个折叠集群中哪个集群。

【问题讨论】：

感谢您的意见。使用监督方法对最初用无监督方法标记的对象进行分类似乎不太正确。一个相关的问题：假设我有一组带有从一些无监督方法中学习到的聚类标签的样本。我现在想检查新数据并确定它们属于哪些集群。看来我可以使用监督学习在原始数据上建立集群模型，并将其应用于新数据以识别集群成员。我如何评估这些新标签？只是通过一些聚类一致性测量？

标签： machine-learning cluster-analysis prediction supervised-learning unsupervised-learning

【解决方案1】：

说实话，整个问题似乎都不正确。如果您有一种算法（聚类技术）可以构建一些数据分区，那么它总是可以通过监督方法进行预测。事实上，根据所使用的集群家族的知识——可以提出完美的分类器（准确率接近 100%）。您应该重新考虑问题陈述。特别是，每个聚类技术都可以通过添加一些关于哪些元素必须放置在同一聚类中的约束来转换为分类器。因此，如果您使用聚类器C，则可以简单地将C 转换为半监督方法，该方法必须根据给定标签对训练集中获得的元素进行聚类。这样，我们将几乎始终创建完全相同的标签，从而实现 100% 的准确度。

创建有效假设的唯一方法是由某个专家分配这些标签，因为这样我们就无法构造“有约束的专家”的分类器。所以上面的推理会失败。换句话说 - 如果您想测试某些标签是否可以以监督方式预测，您需要以难以建模的方式获取这些标签（例如人类专家、自然、物理学、实验，昂贵的数值评估）而不是像集群模型这样简单的东西，因为监督学习的重点是找到这个底层模型。如果这个模型是事先知道的（不是算法本身，而是我们），那么整个推理是不正确的。您只会回答以下问题：

通过选择聚类技术分析的模型族是否类似于所使用的分类器的假设空间族。

或者更正式的

使用的分类器与在考虑的数据集上运行的所选聚类算法诱导的分布一致。

【讨论】：