【发布时间】:2018-05-04 05:53:00
【问题描述】:
我使用的数据集具有高度不平衡的数据(Y=5% 和 N=95%),该数据集有 3000 条唯一记录。为了选择特征,我使用了信息增益。然后应用百分比分割为 66 的随机森林。 正确分类的实例 96.1698 % 错误分类的实例 3.8302 %
=== 混淆矩阵 ===
a----- b
901 11 | a = N
26 28 | b = Y
此外,我尝试了 SMOTE 过滤器,但这并没有改变任何东西(得到非常相似的结果。)我将 SMOTE 过滤器应用到 N 和 Y 的实例几乎相等的程度。
数据是否存在过度拟合的可能性?还有比这更好的方法吗?
【问题讨论】:
-
我投票决定将此问题作为题外话结束,因为it is about machine learning rather than software development。您可以在Cross Validated 或DataScience.SE 上提出这些问题。
标签: machine-learning weka supervised-learning