ROC曲线面积计算

在binary classification model中，ROC或AUC作为一种常用的技术，有两个优点：不随真实情况的事件改变、不随分类错误的相对成本改变，因此当future incidents、relative cost of classification errors或两者都不稳定或未知时，ROC是很好的选择。

AUC的值在0.5-1之间，0.5表示完全不确定，分类随机，一般0.65-0.85之间表示模型较好。

建立binary classification model后，我们的目的是vary parameters to maximize ROC on a sample set with known outcome，这个set叫做training set。

一个计算ROC曲线面积的例子：

ROC曲线面积计算

共有7个事件，对结果（0/1）预测，依次评分并从高到底排序。

从高于最高分到最低分依次为阈值，计算false positive rate（false positives/total negative）和true positive rate（true postives/total positive）：

ROC曲线面积计算

将false positive rate和true positive rate分别作为X轴和Y轴坐标，作图：

ROC曲线面积计算

计算曲线下面积为0.917。

注意，每两个点之间只有横坐标或纵坐标移动，因为每一次下移阈值时，阈值以上为positive，要么对要么错，是将false negative重新分类为true positive或将true negative重新分类为false positive。