AUC/ROC,Accuracy,Precision,Recall 含义。查准率,查全率,样本均衡问题

部分图片转自这里

  • 行的True和False表示预测为正负
  • 列的Pos和Neg表示真实的正负
    机器学习11. ROC曲线、AUC值、Accuracy、Precision、Recall 含义
  • 表哥说明:
    • True Positive(TP):将正类预测为正类的数量.
    • True Negative(TN):将负类预测为负类的数量.
    • False Positive(FP):将负类预测为正类数(假的正类–>其实是负累预测为正) → 误报 (Type I error).(把鸟当成敌机了)
    • False Negative(FN):将正类预测为负类数(假的负类–>其实是正类预测为负) → 漏报 (Type II error).(把敌机当成鸟了–>非常严重)
  • 准确率(Accuracy)
    • acc=TP+TN4acc=\frac{TP+TN}{4个全部},表示分类正确的比例。
    • 准确率在样本不平衡时有较大缺陷。

记正负样本个数分别为:F=TP+FNF=TP+FNN=TN+FPN=TN+FP

  • 精确率(Precision)

    • P=TPTP+FPP=\frac{TP}{TP+FP},表示分类器 【分类正确的正样本】占【分类器分为正样本(不管对错)】的比例。
  • 召回率(Recall)

    • R=TPFR=\frac{TP}{F},表示分类器【分类正确的正样本】占【所有真正正样本】的比例
  • F1值

    • 2F1=1P+1R\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R},精确率和调和率的调和均值(倒数均值)
    • 只有当精确率和召回率都很高时,F1值才会很高
      准确率可以理解为在所有分类为正例的样品中,分类正确的样本所占比例;
      召回率可以理解为在所有原始数据集中的正例样品中,正确挑出的正例样本的比例。
  • FPR/TPR:

    • FPR=FPN=FPFP+TNFPR=\frac{FP}{N}=\frac{FP}{FP+TN}
    • TPR=TPF=TPTP+FNTPR=\frac{TP}{F}=\frac{TP}{TP+FN}
    • 分母分别是真正的正负样本个数。
    • TPR表示表示分类器预测为正样本占所有正样本的比例(和召回率一个公式)
    • FPR表示负例中预测错误的(分类器预测为正例)占所有负样本的比例
  • ROC曲线

    • 在逻辑回归中,默认使用0.5作为阈值,大于0.5判为正例,小于0.5判为负例。现在改变阈值,多次计算模型的FPR和TPR值。
    • 每次得到一组FPR/TPR值,以他们作为x和y轴画一个点,将相邻点连线即是ROC曲线
    • 最佳理想情况是左上角的(0,1)点(曲线越靠近他越好)。即负例中分类无错误(为0),正例全部分对(为1)
      机器学习11. ROC曲线、AUC值、Accuracy、Precision、Recall 含义
      机器学习11. ROC曲线、AUC值、Accuracy、Precision、Recall 含义
  • AUC值
    即ROC的线下面积

  • 为什么使用Roc和Auc评价分类器

    • 因为ROC曲线使用的是正负类内部分类正确错误的比例画图,可以克服数据平衡问题。当数据分布变化时,曲线形态基本不变。而Presision-Recall曲线则受影响较大。
      (a、b展示的是分类器
      机器学习11. ROC曲线、AUC值、Accuracy、Precision、Recall 含义在原始测试集(正负样本分布平衡)的结果,c、d是将测试集中负样本的数量增加到原来的10倍后)

相关文章: