混淆矩阵
通过混淆矩阵来表示预测值和实际值之间的关系

其中,TP表示预测结果为Positive且预测正确(实际类别也是Positive),FP表示预测结果为Positive且预测结果错误(实际应该为Negative),以此类推。
1. 准确率 (accuracy)
准确率表示被正确分类的样本占总样本的比例
acc=TP+TN+FP+FNTP+TN=P+NTP+TN
2. 错误率
错误率与准确率相反,表示被错误分类的样本占总样本的比例
errorrate=TP+TN+FP+FNFP+FN=P+NFP+FN
也等于1 - acc
3. 召回率(recall)、灵敏度(sensitive)、真正率(true positive rate)
召回率是覆盖率的度量,表示有多少正例被正确分类
R=TP+FNTP=PTP
4. 特效度(specificity)
特效度表示有多少负例被正确分类
specificity=TN+FPTN=NTN
5.假正率(false positive rate)
假正率表示负例被错分为正例的比例
FPR=FP+TNFP=NFP
6. 精确率、精度(Precision)
精度表示被分为正例的示例中实际为正例的比例
P=TP+FPTP=P′TP
7. 综合评价指标F-Measure
精度P和召回率R有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-Measure(又称为F-Score)。 F-Measure是Precision和Recall加权调和平均
F=α2(P+R)(α2+1)P∗R
其中α是参数。当α=1时,就是常用的F1指标
F1=P+R2P∗R
当α=2时
F2=4∗(P+R)5∗P∗R
8. ROC曲线
通常分类的阈值越低(把得分更低的样例判定为正例),则模型对正例识别能力越强,真正率(true positive rate)也越高,但同时对负例的误判率也会越高,假正率(false positive rate)也越高。
ROC曲线形象化表示这一变化。
TPR=TP+FNTP=PTP
FPR=FP+TNFP=NFP
ROC以FPR为横坐标,以TPR为纵坐标,表示阈值变化时两者的变化。TPR大,且FPR小的点,就是较优的点

9. AUC(Area Under Curve)
AUC表示ROC曲线下的面积,显然,该面积越大,说明模型越优。
也可以这么理解,随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是 AUC值。
当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。(ACC等其他指标都会变化)