交叉验证说明答案

【问题标题】：cross validation clarification交叉验证说明
【发布时间】：2016-04-04 18:01:58
【问题描述】：

我在理解如何实施交叉验证方面遇到了一些麻烦。就我而言，我正在尝试将其应用于 LVQ 系统。这是我目前所理解的......

可以为 LVQ 调整的参数之一是为每个类建模的原型数量。为了找到最佳数量的原型，必须在训练数据上训练模型，然后在看不见的数据上测试模型并计算其性能。但是，根据您用于训练和验证的数据点，性能结果会有所不同。因此，可以使用交叉验证来获得性能的平均值。

您对不同数量的原型重复此操作，并查看哪个数量获得最佳平均值。完成后，您接下来要做什么？你是在整个训练集上根据获得最佳结果的原型数量生成一个新模型，还是在交叉验证时使用与获得最高准确率的折叠对应的模型？

【问题讨论】：

我投票结束这个问题，因为它属于stats.stackexchange.com
嗨。感谢您指出了这一点。下次我一定会在正确的网站上提问。

标签： machine-learning cross-validation

【解决方案1】：

你是在整个训练集上根据获得最佳结果的原型数量生成一个新模型，还是在交叉验证时使用与获得最高准确率的折叠对应的模型？

完成 CV 并获得最佳参数（在您的情况下为模型数量）后，您可以修复它们并在整个训练数据集上训练模型。

理由如下。假设您的火车数据集是 tr，并且您正试图确定它在其他数据集 te 上的性能（其中 te 是验证数据集或“真实世界”）。由于您无法测试不同参数对 te 的影响（或者因为它会过拟合，或者因为 te 是“真实世界”，并且不可用），所以您模拟通过重复将其拆分为 tr_cv 和 te_cv 在 tr 上。但是，一旦获得了最佳参数，就没有理由不使用整个数据来构建模型。

【讨论】：