对 sklearn 的 roc_auc_score 方法的困惑 [关闭]答案

【问题标题】：Confusion on sklearn's roc_auc_score method [closed]对 sklearn 的 roc_auc_score 方法的困惑 [关闭]
【发布时间】：2021-03-24 06:48:29
【问题描述】：

我从来没有真正去推导出 ROC-AUC 分数。我只是理所当然地使用它。但我最近接手了修改指标的任务，我发现这个指标令人困惑。

假设一个二元分类案例，并引用文档：

y_score : 类似数组的形状 (n_samples,) 或 (n_samples, n_classes)

目标分数。在二进制和多标签情况下，这些可以是概率估计或非阈值决策值（如返回 decision_function 在某些分类器上）。

我发现这个指标可能有两个“定义”...一个虚拟的例子说我们的正类是 1，负类是 0。

y_true：6 个输入的真实标签。

y_preds：输入的预测概率（sigmoid/softmax）为正（1类）。

y_preds_labels：假设阈值为$T=0.5$，我们可以在y_preds 中应用np.argmax sigmoid/softmax 预测来得到它。

现在，我震惊地发现roc_1 给出了 0.3888888888888889 而roc_2 给出了 0.5。有人会认为 0.5 是正确答案，不是吗，因为模型有最大真阳性和假阳性……现在我应该使用哪一个……？

y_true = [0,0,1,1,0,1]
y_preds = [0.3, 0.3, 0.1, 0.3, 0.1, 0.2]
y_pred_labels = [0,0,0,0,0,0]
roc_1 = roc_auc_score(y_true, y_preds)
roc_2 = roc_auc_score(y_true, y_pred_labels)

编辑：通过解释，我知道roc_2 是不正确的。但是，当我尝试以下操作时，分数给出了另一个值，即使“预测”在技术上是相同的。所以我现在明白 ROC 是一个排名指标，但我意识到网上对此几乎没有推导/模拟（大多数文章都在解释精度/召回/灵敏度的概念并将其与 TPR、FPR 联系起来。我想更深入地解释为什么 y_preds_3 给我的 ROC-AUC 分数与 y_preds 大不相同。

y_true = [0,0,1,1,0,1]
y_preds_3 = [0.3,0.4,0.2,0.4,0.1,0.3]
roc_3 = roc_auc_score(y_true, y_preds_3)

这里的post 给了我一些直觉，但我希望有人可以链接/解释我一个更细化的例子。

【问题讨论】：

在此处添加关于您的编辑的评论：我相信一些用户对您的问题投反对票的原因是因为您的问题的标题和描述中的几句话。写下您对 scikit learn 这样一个已建立的 ML 库做出了“令人震惊的发现”，这是一个非常有力的声明。但是，我相信你的问题，去掉那个“情感”部分，是理解 roc auc 的相关问题。简而言之，否决票可能与您提问的风格有关，而不是帖子本身的内容。最佳
@MaximeKan 谢谢，我已经编辑了我的标题。我认为这确实具有误导性。在您的回复之后，我还增加了一个困惑。如果您能提供帮助，请告诉我，或者将我引导到一个很好的来源，让我进一步了解这个指标。谢谢
请注意，在提供答案后扩展和更新问题不是 SO 的工作方式；更喜欢打开一个新问题（如有必要，请在此处链接）。此外，这不是一个编程问题，因此这里可以说是题外话——请注意machine-learningtag info中的介绍和NOTE。
@desertnaut 注意到，这个问题在交叉验证或统计中更合适吗？
我投票结束这个问题，因为它与 help center 中定义的编程无关，而是关于 ML 理论和/或方法 - 请参阅介绍和注意在machine-learningtag info.

标签： python machine-learning scikit-learn roc auc

【解决方案1】：

为了计算 ROC AUC 分数，您需要概率估计（如您引用的文档所述）。您可能对“非阈值决策值”一词感到困惑，但这并没有描述预测标签（而是您可以在支持向量分类中找到的决策函数（SVC，其中预测概率不可用）。

所以在你的例子中，roc_1 是正确的，而 roc_2 不是。

【讨论】：