【发布时间】:2018-02-01 09:07:55
【问题描述】:
我正在寻找一种优雅的方式来以特定方式对数据集进行采样。我找到了一些解决方案,但我想知道你们中是否有人知道更好的方法。
这是我正在查看的任务:
我想平衡我的数据集,这样我的 0 类实例数量与 1 类实例数量相同,因此在下面的示例中,我们有 5 个 1 类实例和 11 个 0 类实例:
编号 |班级 ------ | ------ 1 | 1 1 | 0 1 | 0 1 | 0 1 | 0 2 | 1 2 | 1 2 | 0 2 | 0 2 | 0 3 | 1 3 | 1 3 | 0 3 | 0 3 | 0 3 | 0到目前为止,我刚刚随机删除了 6 个 0 类实例,但我想防止一个 id 的所有实例都被删除。我尝试使用 sklearn 进行分层“拆分”,但它不起作用,因为并非每个 id 都包含超过 1 个项目。所需的输出应该类似于:
编号 |班级 ------ | ------ 1 | 1 1 | 0 2 | 1 2 | 1 2 | 0 2 | 0 3 | 1 3 | 1 3 | 0 3 | 0有什么好主意吗?
【问题讨论】:
标签: python pandas dataframe sampling balance