从 K 折交叉验证中选择哪个模型答案

【问题标题】：Which model to pick from K fold Cross Validation从 K 折交叉验证中选择哪个模型
【发布时间】：2018-01-10 20:42:47
【问题描述】：

我正在阅读有关交叉验证以及它如何用于选择最佳模型和估计参数的内容，我并没有真正理解它的含义。

假设我建立一个线性回归模型并进行 10 折交叉验证，我认为这 10 个中的每一个都会有不同的系数值，现在我应该从 10 个不同的值中选择它们作为我的最终模型或估计参数。

或者我们是否仅将交叉验证用于查找平均误差（在我们的案例中为 10 个模型的平均值）并与另一个模型进行比较？

【问题讨论】：

我的理解是，CV 为您提供了对在所有数据上训练的模型的误差估计。所以我认为在你制作了你所描述的 10 个模型之后，你仍然需要训练第 11 个模型，但使用所有 10 个折叠进行训练。然后，您将平均 CV 误差作为对第 11 个模型的误差的估计。

标签： validation machine-learning statistics cross-validation statistics-bootstrap

【解决方案1】：

如果您构建线性回归模型并进行 10 折交叉验证，实际上这 10 个模型中的每一个都将具有不同的系数值。您使用交叉验证的原因是您对线性模型的错误有一个可靠的了解 - 而不是仅在一次训练/测试拆分上评估它，这可能是不幸的或太幸运了。 CV 更加稳健，因为没有十个分裂可以全部是十个幸运的或全部是十个不幸的。

然后在整个训练集上训练您的最终模型 - 这是您最终系数的来源。

【讨论】：

【解决方案2】：

交叉验证用于查看您的模型预测有多好。正如您可能知道的那样，通过拆分同一数据对同一数据进行多次测试是非常聪明的（即，如果您没有足够的训练数据，这很好用）。

作为一个例子，它可以用来确保你没有过度拟合函数。所以基本上你在完成交叉验证后尝试你的函数，如果你发现错误在某个地方增长了很多，你就回去调整参数。

编辑： 阅读维基百科以更深入地了解其工作原理：https://en.wikipedia.org/wiki/Cross-validation_%28statistics%29

【讨论】：

我的困惑源于这样一个事实：当我们进行 k 折交叉验证时，我们本质上是在构建 k 个单独的模型，因此为了检查模型效率，即估计我们取所有错误的平均值的错误K 折叠
也许 Mohammad Kashif 是正确的，您将其与网格搜索混淆了。请看他的回答。

【解决方案3】：

交叉验证主要用于不同模型的比较。对于每个模型，您可能会得到 k 个验证集的平均泛化误差。然后，您将能够选择平均生成误差最低的模型作为您的最佳模型。

【讨论】：

【解决方案4】：

您基本上将网格搜索与交叉验证混淆了。交叉验证背后的想法基本上是检查模型在现实世界应用程序中的执行情况。所以我们基本上尝试将数据随机分成不同的比例并验证它的性能。需要注意的是，模型的参数在整个交叉验证过程中保持不变。

在网格搜索中，我们尝试找到可能在特定数据拆分（例如 70% 训练和 30% 测试）上提供最佳结果的最佳参数。所以在这种情况下，对于同一模型的不同组合，数据集保持不变。

阅读有关cross-validation here 的更多信息。

【讨论】：

【解决方案5】：

交叉验证或 CV 让我们能够比较不同的机器学习方法，并了解它们在实践中的效果。

场景1（与问题直接相关）

是的，CV 可用于了解哪种方法（SVM、随机森林等）性能最佳，我们可以选择该方法进一步发挥作用。

（根据这些方法，将为每种方法生成和评估不同的模型，并为每种方法计算一个平均指标，最佳平均指标将有助于选择方法） em>

在获得有关最佳方法/或最佳参数的信息后，我们可以在训练数据集上训练/重新训练我们的模型。
对于参数或系数，可以通过网格搜索技术确定。 See grid search

场景 2：

假设您有少量数据，并且想要对数据进行训练、验证和测试。然后将如此少量的数据分成三组，大大减少了训练样本，结果将取决于训练集和验证集对的选择。 CV 将在这里救援。在这种情况下，我们不需要验证集，但我们仍然需要保存测试数据。模型将在 k-1 折训练数据上进行训练，剩余的 1 折将用于验证数据。将生成一个均值和标准差指标，以查看模型在实践中的表现。

【讨论】：