根据样本大小和标签的比例将数据帧拆分为多个答案

【问题标题】：Splitting dataframe into multiple ones according to proportion of samplesize and labels根据样本大小和标签的比例将数据帧拆分为多个
【发布时间】：2021-01-13 08:27:53
【问题描述】：

我想从一个数据框创建我的训练、验证和测试集比例为 6:2:2。

但另外在每组中，我想有一个比例 2 个标签之间的比例为 6:4。在原始数据帧中，这个 6:4 的比例是没有给出，一个标签被大量高估。也许我应该提前调整一下？

我认为 sklearns train_test_split() 可能是一种选择，但说实话它的文档并没有让我变得更聪明......

对于这类问题有什么最佳实践吗？

【问题讨论】：

标签： python pandas dataframe scikit-learn dataset

【解决方案1】：

当您有一个不平衡的数据集时，您可以使用train_test_split() 中的参数'stratify'。这将使数据集分为训练集和测试集，指定变量中类标签的比率是恒定的，即训练集和测试集的类标签比率相同。

【讨论】：