对于不平衡的数据集，使用过采样还是欠采样技术更好？答案

【问题标题】：For an imbalanced dataset, is it better to use oversampling or undersampling techniques?对于不平衡的数据集，使用过采样还是欠采样技术更好？
【发布时间】：2020-02-15 07:33:38
【问题描述】：

我有一个数据集不平衡的二元分类问题，我不知道在欠采样和过采样之间使用什么！！

【问题讨论】：

欢迎来到SO，这是关于具体编码的问题；你的问题太宽泛了，请花点时间阅读How to Ask和What topics can I ask about here?。
这个问题更适合stats.stackexchange.com。顺便提一句。如果您的问题有正确答案，那么那里将没有过采样方法或欠采样方法。换句话说：在您的问题中发布人们可以回答的详细信息，即不平衡程度如何？有多少个数据点？小班有多少，你的大班有多少？你会使用什么机器学习算法？有多少功能？
@FlorianH 在这个（无）细节级别，我非常怀疑这个问题是否适合交叉验证，很可能它也会因为过于宽泛而被关闭。
@desertnaut 是的，我支持你，这就是为什么我说他需要发布更多细节。但是，如果他提出细节，它仍然不是一个特定的编程问题，并且更适合交叉验证。
@FlorianH 同意，如果 ...我只是说以“这个问题更适合简历”开头的评论可能很容易给人“按原样发布到简历”的错误印象；那里已经有 2 票支持移民，恕我直言，不应该是这种情况（因为这个问题太宽泛了，因此应该投票结束）。

标签： machine-learning classification data-science imbalanced-data

【解决方案1】：

尝试更清楚地解释您的数据集

【讨论】：