【问题标题】:Unbalanced Dataset: Oversampling vs Repeat不平衡数据集:过采样与重复
【发布时间】:2023-03-03 02:59:01
【问题描述】:

我在高度不平衡的数据集上面临机器学习任务。

因为最小的类只有很少的示例(大约 200 到最大的 20 万)。我需要执行过采样(更准确地说,我会对较小的类进行过采样,并将较大的类过采样到示例的中间值,但这超出了这个问题的范围)。

现在,我有两种选择:

1) 随机样本(当然有替换)来自最小类的示例

2) 重复n次最小类的例子

关于哪种方法最好的建议?

提前致谢。

【问题讨论】:

  • 不同的应用程序可能会有所不同。您可以对总数据的 10%(1%?)进行测试吗?只需随机拉取它,然后玩上/下/随机/重复采样,看看你能得到什么样的分数/MSE/损失

标签: machine-learning artificial-intelligence classification resampling


【解决方案1】:

正如 Mohammed Athar 提到的,您可以尝试您提到的哪种方法效果更好。

此外,您可以尝试将“大”类随机拆分为 (large_class/small_class) 拆分! 然后,您为每个拆分训练一个分类器(其中您有来自小类的所有数据,并且只有大类的一部分)。

最后,您可以将所有分类器与 bagging/boosting/neural_network/other_model 结合起来。

【讨论】:

    猜你喜欢
    • 2022-11-15
    • 2018-05-17
    • 2017-10-29
    • 1970-01-01
    • 1970-01-01
    • 2018-03-02
    • 2017-10-28
    • 2019-04-30
    • 2019-06-22
    相关资源
    最近更新 更多