【发布时间】:2020-09-25 06:39:48
【问题描述】:
我有一个大小为 10,000 的整体数据集。我知道我可以使用分层拆分来创建训练和测试集,然后我可以运行两次(第二次在测试集上)以获得验证和测试集。我可以为 10,000 个样本执行此操作。我知道我可以使用StratifiedShuffleSplit。
对于我的工作,我只需要使用 1,000 个样本。有没有一种很好的方法可以做到这一点,但只能使用数据的一个子集?我想保留原始 10,000 组中的班级百分比,但将其应用于 1,000 组。
【问题讨论】:
标签: python machine-learning scikit-learn train-test-split