【问题标题】:Binary classification NN gives very low False Positive rate and very high False Negative rate. Can anyone explain二元分类神经网络给出了非常低的误报率和非常高的误报率。谁能解释
【发布时间】:2020-04-06 14:30:13
【问题描述】:

我正在对比例为 (22:1) 的不平衡数据进行二元分类,这意味着如果有 22 个正例,则有 1 个负例。我通过使用Over-Sampling 来处理这个不平衡问题,它添加了少数类示例的副本以平衡正类和负类。

现在我训练了神经网络模型。对于评估,我对低误报率 (FPr) 和低误报率 (FNr) 感兴趣,但它给了我意想不到的结果,非常低的误报率 (0.02 %) 和非常高的误报率 (82.1 %)。 同样对于参考模型有90%的准确率和23%的损失。

我们通过以下方式计算费率:

FPr = FP/(FP+TN) and 

FNr = FN/(Fn+TP)

这里的FP表示False Positive,TN表示True Negative,FN表示False Negative,TP表示True Positive。

所以请任何人解释为什么会出现这些结果,这意味着什么,以及我可以如何训练给我低 FPr 和低 FNr 的模型。

谢谢

【问题讨论】:

  • 我认为它的措辞搞砸了,你能证明正值是混淆矩阵中的正值吗?请注意 wikipedia 和 scikit 使用不同的符号
  • 查看分类器的 ROC 曲线,它是所有可能阈值的结果摘要,而不仅仅是您在此处报告的一个阈值。

标签: machine-learning neural-network statistics data-science probability


【解决方案1】:

准确性不是衡量不平衡问题的充分性能指标。在您的示例中(没有过采样),始终预测正类的虚拟分类器将实现超过 95% 的准确度,大大优于您的分类器。

改用对类别不平衡不太敏感的指标,例如Matthews Correlation Coefficient

简单的过采样(即添加副本)可能会适得其反并扭曲您的 FN/FP 比率。许多模型甚至无法从这种过采样中受益,我建议使用您现有的模型并使用更好的指标来改进您的预测,这可能会纠正您的 FN/FP 问题。

根据您使用的模型,考虑对损失函数或样本进行加权,以反映类别不平衡并鼓励平衡学习。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-06-24
    • 1970-01-01
    • 2016-10-19
    • 2021-08-31
    • 2019-02-05
    • 1970-01-01
    • 2018-06-27
    • 1970-01-01
    相关资源
    最近更新 更多