【发布时间】:2015-06-21 03:53:44
【问题描述】:
我有兴趣评估通过无监督聚类发现的聚类标签的可预测性。假设我有一个由患者组成的数据集,并且我使用无监督聚类技术根据他们的基因表达谱对他们进行分组。我的方法发现了 4 个集群。现在,我想知道这个集群成员是否可以从表达式数据中预测出来。使用全数据无监督聚类标签作为输出变量,我以交叉验证的方式训练监督分类器。因此,我使用 80% 的数据训练分类器,并评估另外 20% 的准确度。
这种方法是否有偏差,因为输出的集群标签是从完整数据中学习的?如果是,我怎样才能以公正的方式做到这一点?如果我以交叉验证的方式进行聚类,我想我需要手动关联每个不同折叠之间的聚类。由于我对四个集群中的一个集群与其他集群的可预测性特别感兴趣,因此我必须通过某种手动分析找出数据的每个折叠集群中哪个集群。
【问题讨论】:
-
感谢您的意见。使用监督方法对最初用无监督方法标记的对象进行分类似乎不太正确。一个相关的问题:假设我有一组带有从一些无监督方法中学习到的聚类标签的样本。我现在想检查新数据并确定它们属于哪些集群。看来我可以使用监督学习在原始数据上建立集群模型,并将其应用于新数据以识别集群成员。我如何评估这些新标签?只是通过一些聚类一致性测量?
标签: machine-learning cluster-analysis prediction supervised-learning unsupervised-learning