测试无监督机器学习算法答案

【问题标题】：Testing Unsupervised Machine Learning Algorithms测试无监督机器学习算法
【发布时间】：2017-07-27 02:57:11
【问题描述】：

在整个互联网上，我可以看到有监督和无监督机器学习算法的应用，但没有人谈论保持机器学习应用程序的质量。最近关于如何测试无监督机器学习算法的分析提出了以下几点：

1) 交叉验证测试：数据集被分成相等的折叠（部分），除一个以外的所有折叠都用作训练数据集，然后用作测试数据集

关于使用测试和训练数据集。
是否有更有效的方法来测试输出不确定的无监督机器学习算法？

【问题讨论】：

评估无监督机器学习算法的质量是有问题的，因为不存在外部标准（=无监督）。如果您不是针对特定应用程序（聚类、降维等），那么这个问题太宽泛而无法回答。此外，交叉验证是监督机器学习算法最常用的评估方法。
我建议在stats.stackexchange.com提出这个问题

【解决方案1】：

根据您使用的算法类型（和选择的距离），您仍然可以尝试查看组间方差和组内方差是否发生很大变化。

如果你的算法仍然和你构建它时一样好，那么两者之间的方差和内部的方差应该不会有太大的变化。如果缩小（或相反）之间的差异，则意味着您的算法没有像以前那样将组分开。

您可以尝试的第二件事是保留一些观察结果（您知道这些观察结果被很好地分类），以便在您重新训练算法后查看它们是否仍属于同一组。如果不是，这并不意味着您的算法有误，但您可以在这种情况下发送警报以进行更深入的研究。

【讨论】：