【问题标题】:Splitting dataframe into multiple ones according to proportion of samplesize and labels根据样本大小和标签的比例将数据帧拆分为多个
【发布时间】:2021-01-13 08:27:53
【问题描述】:

我想从一个数据框创建我的训练、验证和测试集 比例为 6:2:2。

但另外在每组中,我想有一个比例 2 个标签之间的比例为 6:4。在原始数据帧中,这个 6:4 的比例是 没有给出,一个标签被大量高估。 也许我应该提前调整一下?

我认为 sklearns train_test_split() 可能是一种选择,但说实话 它的文档并没有让我变得更聪明......

对于这类问题有什么最佳实践吗?

【问题讨论】:

    标签: python pandas dataframe scikit-learn dataset


    【解决方案1】:

    当您有一个不平衡的数据集时,您可以使用train_test_split() 中的参数'stratify'。这将使数据集分为训练集和测试集,指定变量中类标签的比率是恒定的,即训练集和测试集的类标签比率相同。

    【讨论】:

      猜你喜欢
      • 2019-10-22
      • 1970-01-01
      • 1970-01-01
      • 2019-04-13
      • 2021-04-18
      • 2018-05-05
      • 2013-11-16
      相关资源
      最近更新 更多