在binary classification model中,ROC或AUC作为一种常用的技术,有两个优点:不随真实情况的事件改变、不随分类错误的相对成本改变,因此当future incidents、relative cost of classification errors或两者都不稳定或未知时,ROC是很好的选择。

AUC的值在0.5-1之间,0.5表示完全不确定,分类随机,一般0.65-0.85之间表示模型较好。

建立binary classification model后,我们的目的是vary parameters to maximize ROC on a sample set with known outcome,这个set叫做training set。


一个计算ROC曲线面积的例子:


ROC曲线面积计算

共有7个事件,对结果(0/1)预测,依次评分并从高到底排序。

从高于最高分到最低分依次为阈值,计算false positive rate(false positives/total negative)和true positive rate(true postives/total positive):

ROC曲线面积计算

将false positive rate和true positive rate分别作为X轴和Y轴坐标,作图:

ROC曲线面积计算ROC曲线面积计算

计算曲线下面积为0.917。

注意,每两个点之间只有横坐标或纵坐标移动,因为每一次下移阈值时,阈值以上为positive,要么对要么错,是将false negative重新分类为true positive或将true negative重新分类为false positive。

相关文章:

  • 2021-07-04
  • 2021-04-19
  • 2021-10-02
  • 2021-11-14
  • 2021-11-07
  • 2021-12-17
  • 2021-05-28
猜你喜欢
  • 2021-05-29
  • 2021-07-13
  • 2021-12-26
  • 2022-02-10
  • 2021-06-03
  • 2022-12-23
  • 2021-08-22
相关资源
相似解决方案