1.ROC曲线: 受试者工作特征曲线 (receiver operating characteristic curve)又称为感受性曲线(sensitivity curve)。
2.ROC曲线: 它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感度和特异度,再以敏感度为纵坐标、特异度为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。
3.纵轴—敏感度—TPR
4.横轴—特异度—FPR

在二分类问题中,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况。
(1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP)
(2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negative FN)
(3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP)
(4)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN)
如下图:其中1表示正类,0表示负类。
菜鸟理解ROC曲线和AUC
菜鸟理解ROC曲线和AUC
在理解以上概念之后,接下来就是绘制ROC曲线了。假设已经得出一系列样本被划分为正类的概率,然后按照正类的概率降序排序。下图中一共有20个测试样本。“类别”表示每个测试样本真正的标签(1表示正样本,0表示负样本)。“得分”表示每一个测试样本属于正样本的概率。
菜鸟理解ROC曲线和AUC
一般的二分类的实现方法就是选择一个阈值,将大于这个阈值的样本认为是正例,小于这个阈值的样本认为是反例。于是,不妨对 样本4来看,如果将样本4的评分设置为分类阈值,被分类器为正例的样本有1 2 3 4,其中真正的正例样本有1 2 4,故其TPR=3/10=0.3,FPR=1/10=0.1(分母虽然数值一样但是意义不同,前面TPR的分母是样本总体中的真正例个数,后者是样本总体中的真反例个数)。接着不妨设置样本9的评分0.51作为阈值,那么样本1~9都会被分类器认为是正例样本,其中为真正例的有1 2 4 5 6 9共6个,所以TPR=6/10=0.6,FPR=3/10=0.3.如此这样,将1~20每个样本的评分均作为分类器的判定阈值,可以得到20组TPR和FPR的有序数对;然后不妨以TPR和FPR为两个坐标轴建立一个直角坐标系,就可以得到这样的图像:(随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1))
菜鸟理解ROC曲线和AUC
纵轴TPR:TPR越大,预测正类中实际正类越多。
横轴FPR:FPR越大,预测正类中实际负类越多。
理想目标:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好。

ROC曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。

AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。

假设分类器的输出是样本属于正类的得分,则AUC的物理意义是任取一对(正、负)样本,正样本的得分大于负样本的得分的概率。

AUC = 1,是完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。
  0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
  AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
  AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
  
为什么使用ROC曲线
既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化的。

参考:
https://www.cnblogs.com/dlml/p/4403482.html
https://blog.csdn.net/Green2_0/article/details/83744119
https://www.cnblogs.com/gatherstars/p/6084696.html
https://www.douban.com/note/284051363/

相关文章: