不平衡数据集：过采样与重复答案

【问题标题】：Unbalanced Dataset: Oversampling vs Repeat不平衡数据集：过采样与重复
【发布时间】：2023-03-03 02:59:01
【问题描述】：

我在高度不平衡的数据集上面临机器学习任务。

因为最小的类只有很少的示例（大约 200 到最大的 20 万）。我需要执行过采样（更准确地说，我会对较小的类进行过采样，并将较大的类过采样到示例的中间值，但这超出了这个问题的范围）。

现在，我有两种选择：

1) 随机样本（当然有替换）来自最小类的示例

2) 重复n次最小类的例子

关于哪种方法最好的建议？

提前致谢。

【问题讨论】：

不同的应用程序可能会有所不同。您可以对总数据的 10%（1%？）进行测试吗？只需随机拉取它，然后玩上/下/随机/重复采样，看看你能得到什么样的分数/MSE/损失

【解决方案1】：

正如 Mohammed Athar 提到的，您可以尝试您提到的哪种方法效果更好。

此外，您可以尝试将“大”类随机拆分为 (large_class/small_class) 拆分！然后，您为每个拆分训练一个分类器（其中您有来自小类的所有数据，并且只有大类的一部分）。

最后，您可以将所有分类器与 bagging/boosting/neural_network/other_model 结合起来。

【讨论】：