精确率召回率 F1值准确率 ROC曲线 AUC评价指标

对于二分类问题来说，经过分类器分类后一般会出现下面四种情况（假设positive表正类，negative表负类）：

混淆矩阵如下：
精确率召回率 F1值准确率 ROC曲线 AUC评价指标

精确率（precision）：被预测成正的样本中预测正确的比例。越接近1，预测效果越好

P = T P P' = T P T P + F P

召回率（recall）：原为正样本中被正确预测的比例。越接近1，效果越好

R = T P P = T P T P + F N

F1值：精确率和召回率的调和均值，即：

2 F 1 = 1 P + 1 R

化简得F1值：

F 1 = 2 T P 2 T P + F P + F N

准确率（accuracy）：被正确预测的样本数占总样本数的比例：

A = T P + N = T P' + N' = T N + T P T N + T P + F N + F P

ROC（Receiver operating characteristic curve）

再写一下混淆矩阵：

精确率召回率 F1值准确率 ROC曲线 AUC评价指标

引入两个概念真阳性率TPR（被正确判断为正类即Positive的概率）和伪阳性率FPR（被错误判断为正类的概率）

由上混淆矩阵可知：

真阳性率：

T P R = T P P = T P T P + F N

伪阳性率：

F P R = F P N = F P F P + T N

对于某个二分类模型来说，一般划分正类（positive）和负类（negative）是通过同阈值相比较来划分的，所以说只要调整阈值的大小，就能得出多组TPR和FPR。

将得到的FPR作为横坐标，TPR作为纵坐标，就可以得出对于该分类模型的ROC曲线图了。

如对于某个二分类模型，阈值取a,b,c,d四个不同值，对于同一数据集就可以在ROC图上得出4个不同的点，如下图点A,B,C,D。

精确率召回率 F1值准确率 ROC曲线 AUC评价指标

首先来看一下一条特殊的线 y=x，这条线上的点坐标x=y(FPR=TPR)，即原为正类的，预测为正类的概率等于原为负类但被预测成正类的概率。即随机预测。

还有特殊的两个点E,F。E点的FPR=0,TPR=1说明FP=FN=0即全预测对了。F点刚好相反TN=TP=0即全预测错了，但是F点只要反过来预测就能全对。所以E和F点都是完美预测对应的点。

那对于A,B,C,D来说也一样，离左上角或右下角越近（即离随机预测对应的线越远），预测的结果越理想。因此可以判断预测结果的理想程度为：

A > B > C > D

AUC （Area under the Curve of ROC） ROC曲线下方面积

结合ROC不难得知：