如何将数据集拆分为 5 个大小相同的子集？

【问题标题】：How to split a dataset into 5 subsets of the same size?如何将数据集拆分为 5 个大小相同的子集？
【发布时间】：2020-05-07 19:25:48
【问题描述】：

有没有一种简单的方法可以将数据集分成 5 个大小相同的子集？还考虑到班级分布的百分比？应该可以直接访问每个子集。

非常感谢

【问题讨论】：

标签： python-3.x keras scikit-learn dataset subset

【解决方案1】：

你说的是 Kfold 吗？ scikit-learn StratifiedKFold 是 KFold 的变体。通过保留每个类的样本百分比来进行折叠。

【讨论】：

我想使用 EarlyStopping 进行 5 折交叉验证。我想用 EarlyStopping 训练一个模型 5 次，每次验证数据集都应该与前一个数据集脱节。通过这种方式，我想避免模型间接学习验证数据。整个事情应该发生在一个 for 循环中。我现在不知道在使用 StratifiedKFold 时如何获取每个单独的折叠，以便将它们作为验证数据传递。
是的，你可以@CodeNow！查看这个答案，他们解释了如何使用由 Kfold 类创建的块。您可以单独处理每个块 :) stackoverflow.com/a/48641547/5963546

猜你喜欢

2014-02-21
2021-03-28
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2016-11-13

相关资源

下载 2023-03-28
下载 2022-12-21
下载 2022-12-19

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode