在分类型模型评判的指标中,常见的方法有如下三种:
- 混淆矩阵(也称误差矩阵,Confusion Matrix)
- ROC曲线
- AUC面积
本篇主要介绍第一种方法,即混淆矩阵
混淆矩阵的定义
混淆矩阵(Confusion Matrix),它的本质远没有它的名字听上去那么拉风。矩阵,可以理解为就是一张表格,混淆矩阵其实就是一张表格而已。
以分类模型中最简单的二分类为例,二分类模型最终需要判断样本的结果是0还是1,或者说是positive还是negative。
我们通过样本的采集,能够直接知道真实情况下,哪些数据结果是positive(好样本),哪些结果是negative(坏样本)。同时,我们通过用样本数据跑出分类模型的预测结果,可获得模型预测中认为这些数据哪些是positive,哪些是negative。
因此,就可得到如下四个基础指标:
真实值是positive,模型认为是positive的数量(True Positive=TP)
真实值是positive,模型认为是negative的数量(False Negative=FN):这就是统计学上的第二类错误(Type II Error)
真实值是negative,模型认为是positive的数量(False Positive=FP):这就是统计学上的第一类错误(Type I Error)
真实值是negative,模型认为是negative的数量(True Negative=TN)
将这四个指标一起呈现在表格中,就能得到如下这样一个矩阵,即混淆矩阵
TP(True Positive)、TN(True Negative)的样本越多越好,这说明模型预测的准确率比较高
过杀率(样本数据都是好样本,但是预测的时候给判定为坏样本。卡掉了,这就叫过杀):FN/(TP+FN)
漏杀率(样本数据都是坏样本,希望被全部挑选出来,但是分类模型 没有预测出来,给判定为好样本了,这个叫做漏杀):FP/(FP+TN)
参考文章:1. https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839