【发布时间】:2018-01-10 20:42:47
【问题描述】:
我正在阅读有关交叉验证以及它如何用于选择最佳模型和估计参数的内容,我并没有真正理解它的含义。
假设我建立一个线性回归模型并进行 10 折交叉验证,我认为这 10 个中的每一个都会有不同的系数值,现在我应该从 10 个不同的值中选择它们作为我的最终模型或估计参数。
或者我们是否仅将交叉验证用于查找平均误差(在我们的案例中为 10 个模型的平均值)并与另一个模型进行比较?
【问题讨论】:
-
我的理解是,CV 为您提供了对在所有数据上训练的模型的误差估计。所以我认为在你制作了你所描述的 10 个模型之后,你仍然需要训练第 11 个模型,但使用所有 10 个折叠进行训练。然后,您将平均 CV 误差作为对第 11 个模型的误差的估计。
标签: validation machine-learning statistics cross-validation statistics-bootstrap