【问题标题】:cross validation clarification交叉验证说明
【发布时间】:2016-04-04 18:01:58
【问题描述】:

我在理解如何实施交叉验证方面遇到了一些麻烦。就我而言,我正在尝试将其应用于 LVQ 系统。这是我目前所理解的......

可以为 LVQ 调整的参数之一是为每个类建模的原型数量。为了找到最佳数量的原型,必须在训练数据上训练模型,然后在看不见的数据上测试模型并计算其性能。但是,根据您用于训练和验证的数据点,性能结果会有所不同。因此,可以使用交叉验证来获得性能的平均值。

您对不同数量的原型重复此操作,并查看哪个数量获得最佳平均值。完成后,您接下来要做什么?你是在整个训练集上根据获得最佳结果的原型数量生成一个新模型,还是在交叉验证时使用与获得最高准确率的折叠对应的模型?

【问题讨论】:

  • 我投票结束这个问题,因为它属于stats.stackexchange.com
  • 嗨。感谢您指出了这一点。下次我一定会在正确的网站上提问。

标签: machine-learning cross-validation


【解决方案1】:

你是在整个训练集上根据获得最佳结果的原型数量生成一个新模型,还是在交叉验证时使用与获得最高准确率的折叠对应的模型?

完成 CV 并获得最佳参数(在您的情况下为模型数量)后,您可以修复它们并在整个训练数据集上训练模型。

理由如下。假设您的火车数据集是 tr,并且您正试图确定它在其他数据集 te 上的性能(其中 te 是验证数据集或“真实世界”)。由于您无法测试不同参数对 te 的影响(或者因为它会过拟合,或者因为 te 是“真实世界”,并且不可用),所以您模拟通过重复将其拆分为 tr_cvte_cvtr 上。但是,一旦获得了最佳参数,就没有理由不使用整个数据来构建模型。

【讨论】:

    猜你喜欢
    • 2020-08-29
    • 2018-08-02
    • 2016-10-31
    • 2012-12-31
    • 2018-08-16
    • 2017-04-10
    • 2020-07-12
    • 2013-10-10
    • 2014-04-02
    相关资源
    最近更新 更多