如何在机器学习中对不平衡数据进行建模？答案

【问题标题】：how to model unbalanced data in machine learning?如何在机器学习中对不平衡数据进行建模？
【发布时间】：2018-05-04 05:53:00
【问题描述】：

我使用的数据集具有高度不平衡的数据（Y=5% 和 N=95%），该数据集有 3000 条唯一记录。为了选择特征，我使用了信息增益。然后应用百分比分割为 66 的随机森林。正确分类的实例 96.1698 % 错误分类的实例 3.8302 %

=== 混淆矩阵 ===

a----- b

901 11 | a = N

26 28 | b = Y

此外，我尝试了 SMOTE 过滤器，但这并没有改变任何东西（得到非常相似的结果。）我将 SMOTE 过滤器应用到 N 和 Y 的实例几乎相等的程度。

数据是否存在过度拟合的可能性？还有比这更好的方法吗？

【问题讨论】：

我投票决定将此问题作为题外话结束，因为it is about machine learning rather than software development。您可以在Cross Validated 或DataScience.SE 上提出这些问题。

标签： machine-learning weka supervised-learning

【解决方案1】：

在不平衡数据下分类率没有意义，也许敏感性或特异性是更好的指标。除此之外，信息增益会受到很大影响，因为它使用类计数，而 Hellinger 距离对倾斜数据更稳健。希望我谦虚的 cmets 会有所帮助。

【讨论】：

【解决方案2】：

根据我的拙见，不平衡数据可以在数据级别和算法级别进行处理。在 SMOTE 中发生的是算法尝试通过复制或过度采样少数类数据来重新平衡数据，我认为应该谨慎使用，因为存在过度拟合的可能性。你有没有从这个链接https://www3.nd.edu/~nchawla/papers/DMKD11.pdf尝试Hellinger距离决策树（HDDT）

【讨论】：