二元分类神经网络给出了非常低的误报率和非常高的误报率。谁能解释答案

【问题标题】：Binary classification NN gives very low False Positive rate and very high False Negative rate. Can anyone explain二元分类神经网络给出了非常低的误报率和非常高的误报率。谁能解释
【发布时间】：2020-04-06 14:30:13
【问题描述】：

我正在对比例为 (22:1) 的不平衡数据进行二元分类，这意味着如果有 22 个正例，则有 1 个负例。我通过使用Over-Sampling 来处理这个不平衡问题，它添加了少数类示例的副本以平衡正类和负类。

现在我训练了神经网络模型。对于评估，我对低误报率 (FPr) 和低误报率 (FNr) 感兴趣，但它给了我意想不到的结果，非常低的误报率 (0.02 %) 和非常高的误报率 (82.1 %)。同样对于参考模型有90%的准确率和23%的损失。

我们通过以下方式计算费率：

FPr = FP/(FP+TN) and 

FNr = FN/(Fn+TP)

这里的FP表示False Positive，TN表示True Negative，FN表示False Negative，TP表示True Positive。

所以请任何人解释为什么会出现这些结果，这意味着什么，以及我可以如何训练给我低 FPr 和低 FNr 的模型。

谢谢

【问题讨论】：

我认为它的措辞搞砸了，你能证明正值是混淆矩阵中的正值吗？请注意 wikipedia 和 scikit 使用不同的符号
查看分类器的 ROC 曲线，它是所有可能阈值的结果摘要，而不仅仅是您在此处报告的一个阈值。

标签： machine-learning neural-network statistics data-science probability

【解决方案1】：

准确性不是衡量不平衡问题的充分性能指标。在您的示例中（没有过采样），始终预测正类的虚拟分类器将实现超过 95% 的准确度，大大优于您的分类器。

改用对类别不平衡不太敏感的指标，例如Matthews Correlation Coefficient。

简单的过采样（即添加副本）可能会适得其反并扭曲您的 FN/FP 比率。许多模型甚至无法从这种过采样中受益，我建议使用您现有的模型并使用更好的指标来改进您的预测，这可能会纠正您的 FN/FP 问题。

根据您使用的模型，考虑对损失函数或样本进行加权，以反映类别不平衡并鼓励平衡学习。

【讨论】：