【问题标题】:Testing Unsupervised Machine Learning Algorithms测试无监督机器学习算法
【发布时间】:2017-07-27 02:57:11
【问题描述】:

在整个互联网上,我可以看到有监督和无监督机器学习算法的应用,但没有人谈论保持机器学习应用程序的质量。 最近关于如何测试无监督机器学习算法的分析提出了以下几点:

1) 交叉验证测试:数据集被分成相等的折叠(部分),除一个以外的所有折叠都用作训练数据集,然后用作测试数据集

关于使用测试和训练数据集。
是否有更有效的方法来测试输出不确定的无监督机器学习算法?

【问题讨论】:

  • 评估无监督机器学习算法的质量是有问题的,因为不存在外部标准(=无监督)。如果您不是针对特定应用程序(聚类、降维等),那么这个问题太宽泛而无法回答。此外,交叉验证是监督机器学习算法最常用的评估方法。
  • 我建议在stats.stackexchange.com提出这个问题

标签: testing machine-learning


【解决方案1】:

根据您使用的算法类型(和选择的距离),您仍然可以尝试查看组间方差和组内方差是否发生很大变化。

如果你的算法仍然和你构建它时一样好,那么两者之间的方差和内部的方差应该不会有太大的变化。如果缩小(或相反)之间的差异,则意味着您的算法没有像以前那样将组分开。

您可以尝试的第二件事是保留一些观察结果(您知道这些观察结果被很好地分类),以便在您重新训练算法后查看它们是否仍属于同一组。如果不是,这并不意味着您的算法有误,但您可以在这种情况下发送警报以进行更深入的研究。

【讨论】:

    猜你喜欢
    • 2017-08-21
    • 2018-10-01
    • 2014-04-20
    • 2018-10-17
    • 2016-05-28
    • 2013-03-24
    • 2017-02-21
    • 2019-02-20
    • 2017-10-29
    相关资源
    最近更新 更多