降低信号预测中的假阴性率

【问题标题】：Decrease the False Negative Rate in signal prediction降低信号预测中的假阴性率
【发布时间】：2017-04-07 05:41:53
【问题描述】：

我目前正在开展一个项目，通过使用一些分类学习算法来估计信号，例如使用scikit-learn 的逻辑回归和随机森林。

我现在使用混淆矩阵来估计不同算法在预测中的性能，我发现两种算法都存在共同问题。也就是说，在所有情况下，虽然算法的准确率似乎相对较好（大约 90% - 93%），但与 TP 相比，FN 的总数相当高（FNR

提前感谢您的回复和帮助。

更新：数据集极度不平衡 (8:1)，总共有大约 180K 的观测值。我已经测试了几种重采样方法，例如 OSS、SMOTE(+Tomek 或 +ENN)，但它们都没有返回好的结果。在这两种情况下，虽然召回率从 2.5% 上升到 20%，但准确率显着下降（从 60% 到 20%）。

【问题讨论】：

【解决方案1】：

您可能有一个不平衡的数据集，其中一个类的示例比其他类多。

一种解决方案是用更少的示例来提高错误分类的成本。

编辑：

鉴于您使用的是scikit-learn，作为第一种方法，您可以在Logistic regression 上将参数class_weight 设置为balanced。

【讨论】：