【问题标题】:For an imbalanced dataset, is it better to use oversampling or undersampling techniques?对于不平衡的数据集,使用过采样还是欠采样技术更好?
【发布时间】:2020-02-15 07:33:38
【问题描述】:

我有一个数据集不平衡的二元分类问题,我不知道在欠采样和过采样之间使用什么!!

【问题讨论】:

  • 欢迎来到SO,这是关于具体编码的问题;你的问题太宽泛了,请花点时间阅读How to AskWhat topics can I ask about here?
  • 这个问题更适合stats.stackexchange.com。顺便提一句。如果您的问题有正确答案,那么那里将没有过采样方法或欠采样方法。换句话说:在您的问题中发布人们可以回答的详细信息,即不平衡程度如何?有多少个数据点?小班有多少,你的大班有多少?你会使用什么机器学习算法?有多少功能?
  • @FlorianH 在这个(无)细节级别,我非常怀疑这个问题是否适合交叉验证,很可能它也会因为过于宽泛而被关闭。
  • @desertnaut 是的,我支持你,这就是为什么我说他需要发布更多细节。但是,如果他提出细节,它仍然不是一个特定的编程问题,并且更适合交叉验证。
  • @FlorianH 同意,如果 ...我只是说以“这个问题更适合简历”开头的评论可能很容易给人“按原样发布到简历”的错误印象;那里已经有 2 票支持移民,恕我直言,不应该是这种情况(因为这个问题太宽泛了,因此应该投票结束)。

标签: machine-learning classification data-science imbalanced-data


【解决方案1】:

尝试更清楚地解释您的数据集

【讨论】:

    猜你喜欢
    • 2017-10-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-08-20
    • 2020-02-09
    • 2020-08-30
    • 2020-03-11
    • 2020-09-06
    相关资源
    最近更新 更多