混淆矩阵、准确率、精确率/查准率、召回率/查全率、F1值、ROC曲线的AUC值

文章目录

1、混淆矩阵
2、准确率
3、精确率（查准率）和召回率（查全率）
4、F1-score
5、ROC曲线及其AUC值
6、参考文献

1、混淆矩阵

对于一个二分类问题，我们可以得到如表所示的的混淆矩阵：
混淆矩阵、准确率、精确率/查准率、召回率/查全率、F1值、ROC曲线的AUC值上表所示的混淆矩阵中，行表示数据在模型上的预测类别，列表示数据的真实类别。在看混淆矩阵时，要分清样本的真实类别和预测类别，有些地方的行列表示可能和这里不一致。在sklearn中，二分类问题下的混淆矩阵需要分别将表中的predicted class和Actual class对调，将横纵坐标的positive class和negative class都分别对调，再重新计算混淆矩阵。
通过混淆矩阵，我们可以很直观地看清一个模型在各个类别（positive和negative）上分类的情况。
混淆矩阵、准确率、精确率/查准率、召回率/查全率、F1值、ROC曲线的AUC值
TP、FP、TN、FN，第二个字母表示样本被预测的类别，第一个字母表示样本的预测类别与真实类别是否一致。

2、准确率

计算公式如下所示：
混淆矩阵、准确率、精确率/查准率、召回率/查全率、F1值、ROC曲线的AUC值准确率表示预测正确的样本（TP和TN）在所有样本（all data）中占的比例。在数据集不平衡时，准确率将不能很好地表示模型的性能。可能会存在准确率很高，而少数类样本全分错的情况，此时应选择其它模型评价指标。

3、精确率（查准率）和召回率（查全率）

positive class的精确率（precision）计算公式如下：
混淆矩阵、准确率、精确率/查准率、召回率/查全率、F1值、ROC曲线的AUC值 positive class的召回率（recall）计算公式如下：

positive class的精确率表示在预测为positive的样本中真实类别为positive的样本所占比例；positive class的召回率表示在真实为positive的样本中模型成功预测出的样本所占比例。positive class的召回率只和真实为positive的样本相关，与真实为negative的样本无关；而精确率则受到两类样本的影响。

4、F1-score

F1-score是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛，常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数，最大为1，最小为0。
混淆矩阵、准确率、精确率/查准率、召回率/查全率、F1值、ROC曲线的AUC值
此外还有F2分数和F0.5分数。F1分数认为召回率和精确率同等重要，F2分数认为召回率的重要程度是精确率的2倍，而F0.5分数认为召回率的重要程度是精确率的一半。计算公式为：
混淆矩阵、准确率、精确率/查准率、召回率/查全率、F1值、ROC曲线的AUC值

5、ROC曲线及其AUC值

①ROC
关于两类分类问题，原始类为positive、negative，分类后的类别为p’、n’。排列组合后得到4种结果，如下图所示：
混淆矩阵、准确率、精确率/查准率、召回率/查全率、F1值、ROC曲线的AUC值
于是我们得到四个指标，分别为：真阳、伪阳、伪阴、真阴。ROC空间将伪阳性率（FPR）定义为 X 轴，真阳性率（TPR）定义为 Y 轴。这两个值由上面四个值计算得到，公式如下：
TPR：在所有实际为阳性的样本中，被正确地判断为阳性之比率。TPR=TP/(TP+FN)
FPR：在所有实际为阴性的样本中，被错误地判断为阳性之比率。FPR=FP/(FP+TN)
②AUC
AUC值为ROC曲线所覆盖的区域面积，显然，AUC越大，分类器分类效果越好。
AUC = 1，是完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

6、参考文献

①https://blog.csdn.net/weixin_30372371/article/details/99792115