k折交叉验证的最佳折数答案

【问题标题】：Optimal number of folds for k-fold cross-validationk折交叉验证的最佳折数
【发布时间】：2020-10-24 13:30:30
【问题描述】：

任何人都可以推荐一些更正式的方法来建立最佳折叠数，小于可能的最大折叠数并且不需要耗时的模拟（可以预见的是，测试k 值范围的顶部是最好）？

更多信息

根据理论和模拟，我们知道模型指标通常会随着折叠数的增加而增加（有一些差异） (k)。因此，在给定数据大小和时间限制的情况下，使用小于仍然可行的最大折叠数的任何东西都是次优的。

所以使用 5 或 10 倍的标准默认值实际上也是超参数优化的一个示例，但它们是集体执行的，因此它们不需要预先优化，而是根据模型训练的时间限制进行切换。作为一种特殊情况，在深度学习等耗时的训练设置中，没有时间进行多次折叠，因此通常只使用单个验证集。

【问题讨论】：

【解决方案1】：

可以从 PCA scree plots 借用一个不完美的解决方案 - 这就是所谓的弯头点，但它需要形式化，并且需要对我们想要避免的折叠数进行模拟。 p>

例如，根据我对数百个模型的模拟（sklearn 乳腺癌数据分类），最佳肘点约为 3-5 折：

【讨论】：