【发布时间】:2023-03-03 02:59:01
【问题描述】:
我在高度不平衡的数据集上面临机器学习任务。
因为最小的类只有很少的示例(大约 200 到最大的 20 万)。我需要执行过采样(更准确地说,我会对较小的类进行过采样,并将较大的类过采样到示例的中间值,但这超出了这个问题的范围)。
现在,我有两种选择:
1) 随机样本(当然有替换)来自最小类的示例
2) 重复n次最小类的例子
关于哪种方法最好的建议?
提前致谢。
【问题讨论】:
-
不同的应用程序可能会有所不同。您可以对总数据的 10%(1%?)进行测试吗?只需随机拉取它,然后玩上/下/随机/重复采样,看看你能得到什么样的分数/MSE/损失
标签: machine-learning artificial-intelligence classification resampling