机器学习：分类模型评价指标之混淆矩阵

在分类型模型评判的指标中，常见的方法有如下三种：

混淆矩阵（也称误差矩阵，Confusion Matrix）
ROC曲线
AUC面积
本篇主要介绍第一种方法，即混淆矩阵

混淆矩阵的定义

混淆矩阵（Confusion Matrix），它的本质远没有它的名字听上去那么拉风。矩阵，可以理解为就是一张表格，混淆矩阵其实就是一张表格而已。

以分类模型中最简单的二分类为例，二分类模型最终需要判断样本的结果是0还是1，或者说是positive还是negative。

我们通过样本的采集，能够直接知道真实情况下，哪些数据结果是positive（好样本），哪些结果是negative（坏样本）。同时，我们通过用样本数据跑出分类模型的预测结果，可获得模型预测中认为这些数据哪些是positive，哪些是negative。

因此，就可得到如下四个基础指标：

真实值是positive，模型认为是positive的数量（True Positive=TP）
真实值是positive，模型认为是negative的数量（False Negative=FN）：这就是统计学上的第二类错误（Type II Error）
真实值是negative，模型认为是positive的数量（False Positive=FP）：这就是统计学上的第一类错误（Type I Error）
真实值是negative，模型认为是negative的数量（True Negative=TN）
将这四个指标一起呈现在表格中，就能得到如下这样一个矩阵，即混淆矩阵
机器学习：分类模型评价指标之混淆矩阵
TP（True Positive）、TN（True Negative）的样本越多越好，这说明模型预测的准确率比较高

过杀率(样本数据都是好样本，但是预测的时候给判定为坏样本。卡掉了，这就叫过杀)：FN/(TP+FN)
漏杀率(样本数据都是坏样本，希望被全部挑选出来，但是分类模型没有预测出来，给判定为好样本了，这个叫做漏杀)：FP/(FP+TN)
机器学习：分类模型评价指标之混淆矩阵

参考文章：1. https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839