【问题标题】:Logistic regression "probability" function (is not a valid pdf...)逻辑回归“概率”函数(不是有效的 pdf ......)
【发布时间】:2022-01-03 13:39:28
【问题描述】:

逻辑回归背后的想法是估计后验类条件概率,给定 xC_k 的观察值,使用 sigmoid f(C_k| x)=1/(1+exp(-w*x)) 来计算权重向量 w

在我读过的每一本书(例如,Bishop 的 PRML)中,f(C_k| x) 是一个概率密度函数,但这绝对不是一个有效的 pdf,因为从负无穷到无穷的积分不等于 1(也不可能是通过任何归一化,因为积分是无限的)。

感谢您对此事的任何解释

【问题讨论】:

  • stats.stackexchange.com/questions/69820stats.stackexchange.com/questions/91473 看起来他们可能会回答这个问题。另一种方法是对普通最小二乘回归提出相同的问题。现在响应密度为 $$f(y\mid x)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{1}{2\sigma^2}( y-\alpha-\beta x)^2\right).$$ 虽然您可以将它整合到所有 $x,$ 上,但您通常不会得到 $1$ 作为答案。问题是这个积分与回归无关,因为它在回归量 $x 上取某种平均值。$
  • $f(C_k|X=x)$ 是以 $X = x$ 为条件的类的概率质量函数,因此 $(X, C_k)$ 的联合分布为 $f (x)f(C_k|x)$,其中 $f(x)$ 是 $X$ 的 pdf 或 pmf。如果你对类求和并在 $X$ 上集成(求和)函数 $f(x)f(C_k|x)$,你应该得到 $1$,这不正确吗?在逻辑回归中,我们通常不关心$f(x)$,因为我们把$X$当作固定的,所以我们只建模$f(C_k|X)$。
  • 您给出的逻辑函数是分布函数,而不是密度函数。分布范围从 0 到 1。逻辑密度是您给出的函数的导数。

标签: machine-learning logistic


【解决方案1】:

你错了,从-inf 到+inf 没有积分。它是一个离散分布 p(c_k | x),在逻辑回归的情况下,您有两个类 c=1 和 c=0。模型输出属于类别 c=1 的概率。如果从 1 中减去 p(c = 1 | x),则得到另一个类别的概率:p(c = 0 | x) = 1 - p(c = 1 | x)。 Softmax 回归通过应用 softmax 而不是 sigmoid 或逻辑函数将其扩展到两个以上的类。

【讨论】:

  • 我想这个简单的解释就足够了,但是为了使它更流畅,请参阅@leo 指出的logistic loss,p(1|x) + p(0|x) 总是加起来为 1 ,这就是它在分类任务中形成pdf的原因。不要混淆“逻辑函数形成 pdf”(不正确)和“逻辑损失形成 pdf”(正确)。
  • @leo - 即使是离散分布,也应该求和为一,不是吗?
  • 总和为一。我认为你的困难在于符号,一段时间后它会变得更容易阅读。首先忽略“x”上的条件。有两个可能的选项,c=0 和 c=1。它总结为一个。 p(c=0) + p(c=1) = 1。您在每个问题中都以“x”为条件以及人们如何解释 p(.|.) 是另一回事,但条件概率仍然是概率。我认为无论积分是在“x”还是“c”上,你都会感到困惑。 p(C | X) 是 C 的有效概率质量函数,而不是“X”。
猜你喜欢
  • 2015-05-04
  • 2013-12-24
  • 1970-01-01
  • 2019-04-04
  • 2019-04-06
  • 2013-06-05
  • 2017-11-20
  • 2018-09-24
  • 1970-01-01
相关资源
最近更新 更多