【问题标题】:Understanding Graph of Binary Response Regression了解二元响应回归图
【发布时间】:2016-08-02 17:31:34
【问题描述】:

请参考这张图片:

我相信它是使用 R 或 SAS 或其他东西生成的。我想确保我理解它所描绘的内容并从头开始重新创建它。

我了解左侧的 ROC 曲线,并且我使用我的概率模型在不同的阈值下生成了我自己的曲线。

我不明白的是右手边的图表。 “成本”函数是什么意思?有哪些单位?我假设标记为“阈值”的 x 轴是我在 ROC 中使用的成功截止阈值。我唯一的猜测是 Y 轴是残差平方和?但是如果是这样的话,我必须在每次阈值迭代后得到残差?

请解释一下轴是什么以及如何计算它们。

--编辑-- 为了清楚起见,我不需要证明或一行代码。因为我使用不同的统计软件,所以让某人从概念上(用最少的术语)解释如何计算 Y 轴会更有用。这样我就可以用我的软件语言来编写它。

谢谢

【问题讨论】:

  • 这是一个针对 Data Science SE 或 Cross Validated 的问题。
  • 这可以在R中的ggplot2包的帮助下绘制。
  • 好的,谢谢您的意见。实际上,我不使用 R,我使用不同的统计软件,所以我对这个图表的概念方面更感兴趣,这样我就可以使用我的软件完成这些步骤。因此,如果 R 社区的某个人可以解释该软件包的作用(如我上面的帖子所述),那将是理想的。
  • 这里是r-bloggers.com/illustrated-guide-to-roc-and-auc 它与您在此处显示的地段相同。希望这有助于理解这个概念。
  • 我通读了一遍,似乎只有这部分讨论了右手边的图:“成本函数和 ROC 点的相应着色说明最佳 FPR 和 TPR 组合由相关联的成本。” -- 但不幸的是,我仍然不知道单位是什么,也不知道 x 或 y 轴是如何计算的。例如,r-bloggers 的文章一直在谈论“成本”,但我不知道这是指什么。

标签: r statistics data-science


【解决方案1】:

我会尽量说明这一点。成本函数一词可以在多种情况下使用,并且可以具有多种含义。通常,当我们在回归模型的上下文中使用该术语时,我们很自然会想到最小化残差平方和。

但是,不是这里的情况(我们仍然这样做是因为我们对最小化函数感兴趣,但该函数在算法中并未被最小化,例如残差平方和)。让我详细说明第二张图的含义。

正如@oshun 正确提到的那样,R-blogger 帖子的作者(这些图表的来源)想要找到一个衡量标准(即一个数字)来比较不同阈值点的分类“错误”。为了做到这一点并创建这些措施,他做了一些非常直观和简单的事情。他计算了不同阈值级别的误报和误报。他使用的功能是:

sum(df$pred >= threshold & df$survived == 0) * cost_of_fp + #false positives
sum(df$pred <  threshold & df$survived == 1) * cost_of_fn   #false negatives

我故意将上面的内容分成两行。第一行计算误报(预测 >= 阈值意味着算法将乘客分类为幸存但实际上他们没有 - 即幸存等于 0)。第二行做同样的事情,但计算假阴性(即那些被预测为没有幸存但实际上他们确实幸存的人)。

现在剩下的就是cost_of_fpcost_of_fn 是什么。这些只不过是权重,由用户任意设置。在上面的示例中,作者使用了cost_of_fp = 1cost_of_fn = 3。这只是意味着就成本函数而言,假阴性比假阳性重要 3 倍。因此,在成本函数中,任何假阴性都只是乘以 3,以增加假阳性 + 假阴性的数量(这是成本函数的结果)。

总结一下,上图中的y轴就是:

false_positives * weight_fp + false_negatives * weight_fn

对于阈值的每个值(用于计算 false_positives 和 false_negatives)。

我希望现在清楚了。

【讨论】:

  • 是的,事情就这么清楚了。很好的解释!这个概念表达得很好,我现在完全明白了。如果我完全理解 R,我可能可以从帖子中推测出来,但我使用 Python / Eviews,所以如果没有你的解释,这对我来说不是很明显。
  • 真的很高兴我能帮上忙 :)
猜你喜欢
  • 2021-06-22
  • 2019-07-04
  • 2022-01-01
  • 2021-07-31
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-05-10
  • 1970-01-01
相关资源
最近更新 更多