【发布时间】:2017-04-07 05:41:53
【问题描述】:
我目前正在开展一个项目,通过使用一些分类学习算法来估计信号,例如使用scikit-learn 的逻辑回归和随机森林。
我现在使用混淆矩阵来估计不同算法在预测中的性能,我发现两种算法都存在共同问题。也就是说,在所有情况下,虽然算法的准确率似乎相对较好(大约 90% - 93%),但与 TP 相比,FN 的总数相当高(FNR
提前感谢您的回复和帮助。
更新: 数据集极度不平衡 (8:1),总共有大约 180K 的观测值。我已经测试了几种重采样方法,例如 OSS、SMOTE(+Tomek 或 +ENN),但它们都没有返回好的结果。在这两种情况下,虽然召回率从 2.5% 上升到 20%,但准确率显着下降(从 60% 到 20%)。
【问题讨论】:
-
你在使用图书馆吗?
-
是的,我正在使用 Scikit。
标签: python scikit-learn classification