混淆矩阵

通过混淆矩阵来表示预测值和实际值之间的关系
二元分类中的各种评价指标
其中,TP表示预测结果为Positive且预测正确(实际类别也是Positive),FP表示预测结果为Positive且预测结果错误(实际应该为Negative),以此类推。

1. 准确率 (accuracy)

准确率表示被正确分类的样本占总样本的比例
acc=TP+TNTP+TN+FP+FN=TP+TNP+N acc = \frac{TP + TN}{TP + TN + FP + FN} = \frac{TP + TN}{P+N}

2. 错误率

错误率与准确率相反,表示被错误分类的样本占总样本的比例
errorrate=FP+FNTP+TN+FP+FN=FP+FNP+N error rate = \frac{FP + FN}{TP + TN + FP + FN} = \frac{FP + FN}{P+N}
也等于1 - acc

3. 召回率(recall)、灵敏度(sensitive)、真正率(true positive rate)

召回率是覆盖率的度量,表示有多少正例被正确分类
R=TPTP+FN=TPP R = \frac{TP}{TP + FN}=\frac{TP}{P}

4. 特效度(specificity)

特效度表示有多少负例被正确分类
specificity=TNTN+FP=TNN specificity=\frac{TN}{TN + FP} = \frac{TN}{N}

5.假正率(false positive rate)

假正率表示负例被错分为正例的比例
FPR=FPFP+TN=FPN FPR = \frac{FP}{FP + TN} = \frac{FP}{N}

6. 精确率、精度(Precision)

精度表示被分为正例的示例中实际为正例的比例
P=TPTP+FP=TPP P = \frac{TP}{TP + FP} = \frac{TP}{P'}

7. 综合评价指标F-Measure

精度P和召回率R有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-Measure(又称为F-Score)。 F-Measure是Precision和Recall加权调和平均
F=(α2+1)PRα2(P+R) F = \frac{(\alpha^2 + 1)P * R}{\alpha^2(P + R)}
其中α\alpha是参数。当α=1\alpha=1时,就是常用的F1指标
F1=2PRP+R F1=\frac{2P*R}{P+R}
α=2\alpha=2
F2=5PR4(P+R) F2=\frac{5*P*R}{4*(P+R)}

8. ROC曲线

通常分类的阈值越低(把得分更低的样例判定为正例),则模型对正例识别能力越强,真正率(true positive rate)也越高,但同时对负例的误判率也会越高,假正率(false positive rate)也越高。
ROC曲线形象化表示这一变化。
TPR=TPTP+FN=TPP TPR = \frac{TP}{TP + FN}=\frac{TP}{P}
FPR=FPFP+TN=FPN FPR = \frac{FP}{FP + TN} = \frac{FP}{N}
ROC以FPR为横坐标,以TPR为纵坐标,表示阈值变化时两者的变化。TPR大,且FPR小的点,就是较优的点
二元分类中的各种评价指标

9. AUC(Area Under Curve)

AUC表示ROC曲线下的面积,显然,该面积越大,说明模型越优。
也可以这么理解,随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是 AUC值。
当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。(ACC等其他指标都会变化)

相关文章:

  • 2022-02-08
  • 2022-01-27
  • 2021-07-03
  • 2022-02-08
  • 2022-12-23
  • 2021-11-29
猜你喜欢
  • 2021-09-23
  • 2021-08-30
  • 2021-07-16
  • 2021-11-11
  • 2021-08-16
相关资源
相似解决方案