【问题标题】:How to split a dataset into 5 subsets of the same size?如何将数据集拆分为 5 个大小相同的子集?
【发布时间】:2020-05-07 19:25:48
【问题描述】:

有没有一种简单的方法可以将数据集分成 5 个大小相同的子集?还考虑到班级分布的百分比? 应该可以直接访问每个子集。

非常感谢

【问题讨论】:

    标签: python-3.x keras scikit-learn dataset subset


    【解决方案1】:

    你说的是 Kfold 吗? scikit-learn StratifiedKFold 是 KFold 的变体。通过保留每个类的样本百分比来进行折叠。

    【讨论】:

    • 我想使用 EarlyStopping 进行 5 折交叉验证。我想用 EarlyStopping 训练一个模型 5 次,每次验证数据集都应该与前一个数据集脱节。通过这种方式,我想避免模型间接学习验证数据。整个事情应该发生在一个 for 循环中。我现在不知道在使用 StratifiedKFold 时如何获取每个单独的折叠,以便将它们作为验证数据传递。
    • 是的,你可以@CodeNow!查看这个答案,他们解释了如何使用由 Kfold 类创建的块。您可以单独处理每个块 :) stackoverflow.com/a/48641547/5963546
    猜你喜欢
    • 2014-02-21
    • 2021-03-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-11-13
    相关资源
    最近更新 更多