【问题标题】:Optimal number of folds for k-fold cross-validationk折交叉验证的最佳折数
【发布时间】:2020-10-24 13:30:30
【问题描述】:

任何人都可以推荐一些更正式的方法来建立最佳折叠数,小于可能的最大折叠数并且不需要耗时的模拟(可以预见的是,测试k 值范围的顶部是最好)?

更多信息

根据理论和模拟,我们知道模型指标通常会随着折叠数的增加而增加(有一些差异) (k)。因此,在给定数据大小和时间限制的情况下,使用小于仍然可行的最大折叠数的任何东西都是次优的。

所以使用 5 或 10 倍的标准默认值实际上也是超参数优化的一个示例,但它们是集体执行的,因此它们不需要预先优化,而是根据模型训练的时间限制进行​​切换。作为一种特殊情况,在深度学习等耗时的训练设置中,没有时间进行多次折叠,因此通常只使用单个验证集。

【问题讨论】:

    标签: machine-learning optimization cross-validation hyperparameters


    【解决方案1】:

    可以从 PCA scree plots 借用一个不完美的解决方案 - 这就是所谓的弯头点,但它需要形式化,并且需要对我们想要避免的折叠数进行模拟。 p>

    例如,根据我对数百个模型的模拟(sklearn 乳腺癌数据分类),最佳肘点约为 3-5 折:

    【讨论】:

      猜你喜欢
      • 2016-01-15
      • 1970-01-01
      • 2021-02-20
      • 2018-08-29
      • 2017-06-09
      • 2017-07-02
      • 1970-01-01
      • 1970-01-01
      • 2020-08-29
      相关资源
      最近更新 更多