【发布时间】:2023-03-27 04:23:01
【问题描述】:
我正在使用带有交叉验证的 sklearn(5 折)。
交叉验证。 我得到我的数据集并在 5 折交叉验证中使用它。 返回的分数(全部 5 个)在 0.80 到 0.85 的范围内
直接培训 如果我使用相同的数据集和训练测试拆分(0.2 个测试部分)并直接拟合和预测,我会得到大约 0.70 的准确度。 (recall 和 ROC AUC 也比这小)。
所以, 在交叉验证中,单个折叠组合等于我们在训练测试拆分中直接执行的操作,对吗?那为什么会有很大的不同呢?我已经读过原因是交叉验证过度适合训练数据。但是当考虑交叉验证的单一设置(组合)时,它与直接拟合和预测不一样吗?如果我以某种方式知道交叉验证中特定组合拆分数据的确切方式,并使用该精确拆分方法直接使用,我不应该获得相同的准确性吗?
【问题讨论】:
标签: scikit-learn cross-validation