【发布时间】:2020-02-15 07:33:38
【问题描述】:
我有一个数据集不平衡的二元分类问题,我不知道在欠采样和过采样之间使用什么!!
【问题讨论】:
-
欢迎来到SO,这是关于具体编码的问题;你的问题太宽泛了,请花点时间阅读How to Ask和What topics can I ask about here?。
-
这个问题更适合stats.stackexchange.com。顺便提一句。如果您的问题有正确答案,那么那里将没有过采样方法或欠采样方法。换句话说:在您的问题中发布人们可以回答的详细信息,即不平衡程度如何?有多少个数据点?小班有多少,你的大班有多少?你会使用什么机器学习算法?有多少功能?
-
@FlorianH 在这个(无)细节级别,我非常怀疑这个问题是否适合交叉验证,很可能它也会因为过于宽泛而被关闭。
-
@desertnaut 是的,我支持你,这就是为什么我说他需要发布更多细节。但是,如果他提出细节,它仍然不是一个特定的编程问题,并且更适合交叉验证。
-
@FlorianH 同意,如果 ...我只是说以“这个问题更适合简历”开头的评论可能很容易给人“按原样发布到简历”的错误印象;那里已经有 2 票支持移民,恕我直言,不应该是这种情况(因为这个问题太宽泛了,因此应该投票结束)。
标签: machine-learning classification data-science imbalanced-data