【发布时间】:2021-01-13 08:27:53
【问题描述】:
我想从一个数据框创建我的训练、验证和测试集 比例为 6:2:2。
但另外在每组中,我想有一个比例 2 个标签之间的比例为 6:4。在原始数据帧中,这个 6:4 的比例是 没有给出,一个标签被大量高估。 也许我应该提前调整一下?
我认为 sklearns train_test_split() 可能是一种选择,但说实话 它的文档并没有让我变得更聪明......
对于这类问题有什么最佳实践吗?
【问题讨论】:
标签: python pandas dataframe scikit-learn dataset