模型评估指标
一:准确率、错误率
准确率:分类正确的样本除以总样本数。
公式:准确率 = 正确预测的正反例数 / 样本总数
错误率:与正确率相反,分类错误的样本除以总样本数。
公式:错误率 = 错误预测的正反例 / 样本总数 = 1 - 准确率
准确率一般用来评估模型的全局准确程度。
二:混淆矩阵
真实值是positive,模型认为是positive的数量(True Positive=TP)
真实值是positive,模型认为是negative的数量(False Negative=FN):这就是统计学上的第二类错误(Type II Error)
真实值是negative,模型认为是positive的数量(False Positive=FP):这就是统计学上的第一类错误(Type I Error)
真实值是negative,模型认为是negative的数量(True Negative=TN)
将这四个指标一起呈现在表格中,就能得到如下这样一个矩阵,我们称它为混淆矩阵(Confusion Matrix):
混淆矩阵的指标
预测性分类模型,肯定是希望越准越好。那么,对应到混淆矩阵中,那肯定是希望TP与TN的数量大,而FP与FN的数量小。
三: 召回率、精确率
召回率:
又被称为查全率,预测为正例(positive)的样本中正确的数量除以真正的Positive的数量,即:
Recall=TP/(TP+FN)=TP/P
精确率:
又被称为查准率,被分为正例的示例中实际为正例的比例,即:
Precision=TP/(TP+FP)
四:P-R曲线、平均精度(AP)、F指标
P-R曲线
选取不同阈值时对应的精度和召回画出来
总体趋势,精度越高,召回越低,当召回达到1时,对应概率分数最低的正样本,这个时候正样本数量除以所有大于等于该阈值的样本数量就是最低的精度值。
平均精度(AP)
P-R曲线围起来的面积,通常来说一个越好的分类器,AP值越高。
F指标(F-MeasureF-Measure)
实际应用到分类时,需要综合考虑精度,召回。选取一个阈值,F-Measure是选取这个阈值的常用手段:
\beta 是关与召回的权重,大于1说明更看重召回的影响,小于1则更看重精度,等于1相当于两者的调和平均,这里得到一个常用的指标F1-Measure。
F1指标(F1-Measure)
想用F1指标时,只需要选取F1指标最大时的阈值即可。
五:受试者工作特征曲线(Receiver Operating Characteristic,ROC)、AUC(Area Under Curve)、EER(Equal Error Rate)
通过选取不同的阈值还可以得到另外一种常见的受试者工作特征曲线,简称ROC曲线,方法类似P-R曲线,根据不同的阈值,横轴为FPR,纵轴为TPR的曲线。
ROC关注两个指标:
1) True Positive Rate ( TPR ) = TP / [ TP + FN] ,TPR代表能将正例分对的概率
2)False Positive Rate( FPR ) = FP / [ FP + TN] ,FPR代表将负例错分为正例的概率
曲线左下和右上代表一个完全没有效果的分类器,如果曲线在对角线左上,说明分类器有效果,在右下说明是负效果。
越靠近左上效果越好,理想的分类器对应的ROC曲线和(0,0)、(0,1)、(1,1)所在折线重合。
AUC(Area Under Curve):
ROC曲线围住的面积,越大,分类器效果越好。
EER(Equal Error Rate):
指的是FNR=FPR的情况,因为FNR=1-TPR,所以在ROC曲线中就是曲线和(0,1)、(1,0)对角线的交点。从漏检和误检的角度,FPR理解为对正样本的漏检率,FNR则是预测为正样本的误检率。EER是均衡考虑这两者时的阈值选定标准。
六:平均精度均值(Mean Average Precision,mAP)、IOU(Intersection Over Union)
评价一个检测算法时,主要看两个指标,即是否正确的预测了框内物体的类别;预测的框和人工标注框的重合程度。
平均精度均值(Mean Average Precision,mAP):
mAP即是把每个类别的AP都单独拿出来,然后计算所有类别AP的平均值,代表着对检测到的目标平均精度的一个综合度量。
IOU(Intersection Over Union):
IOU用来衡量预测的物体框和真实框的重合程度,即:
蓝色的框是:GroundTruth
黄色的框是:DetectionResult
绿色的框是:DetectionResult ⋂GroundTruth
红色的框是:DetectionResult ⋃GroundTruth
即两个框的交并比,评价一个算法的时候,一种常见的方法是先设置一个IOU的阈值,只要算法找到的IOU大于这个阈值,就是一个有效的检测,把记过拿出来计算mAP作为最终的评价指标。