逻辑回归 — Logistic Regression

逻辑回归通式定义如下：

{p (z i) = 1 1 + e - z i z i = θ T x i

要想理解逻辑回归，我们需要看一下函数p的图像，如下图：

由图可知，在z∈R的定义域中，函数p将z映射到(0,1)的值域中，其中z=0时，p(z)=0.5。一种常见的对这个图的解释是p(xi;θ)=11+e−θTxi是事件xi发生的概率。

事件xi发生与否其实也就是一个二分类问题。我们可以用标签yi=1表示事件xi发生，标签yi=0表示事件xi不发生。用函数p(x;θ)表示事件x发生的概率Pr(Y=1|X=x)。因此，事件x不发生的概率Pr(Y=0|X=x)为1−p(x;θ)。我们可以用一个式子表示如上两种情况：

P r (Y = y i | X = x i) = p (x i; θ) y i (1 - p (x i; θ)) 1 - y i

从现在开始，我们应该对逻辑回归有了初步的认识。逻辑回归是一个分类算法，而非回归算法。本文主要分析其在二分类问题中的应用。逻辑回归以概率的方式来对数据进行分类。例如，设置阈值为0.5，如果Pr(Y=1|X=xi)≥0.5，则将数据xi标记为类1，否则将其标记为类0。p(xi;θ)=0.5其实就是一个超平面，平面之上的点组成yi=1的集合，平面之下的点组成yi=0的集合。总结一下我们的问题：已知xi和yi，求函数p(xi;θ)中的θ的取值。

首先，我先给出此问题的似然函数：

\prod i = 1 m P r (Y = y i | X = x i)

为了理解这个最大似然估计函数，我们考虑一个简单的、却类似的问题。假设一个袋子里有若干颗白球和黑球，在10次有放回的抽取中，我抽到了8次黑球，2次白球。如何求袋子中黑白球的比例呢？我们可以利用最大似然估计：假设我抽取到黑球的概率为p，那么我这次抽取得到8次黑球、2次白球的概率为：

P = p 8 * (1 - p) 2

我们用使这次抽取结果发生的概率P最大化的p̂ 值去近似替代实际的p值。

同样的道理，回到逻辑回归的问题中。我们要目前已知的标签集合Y发生的概率最大化，求该情况下的θ的取值。因此：

L (θ) = \prod i = 1 m P r (Y = y i | X = x i) = \prod i = 1 m p (x i; θ) y i (1 - p (x i; θ)) 1 - y i

对数似然函数为：

l (θ) = log (L (θ)) = \sum i = 1 m log [p (x i; θ) y i (1 - p (x i; θ)) 1 - y i] = \sum i = 1 m [y i log p (x i) + (1 - y i) log (1 - p (x i))] = \sum i = 1 m [log (1 - p (x i)) + y i (log p (x i) - log (1 - p (x i)))] = \sum i = 1 m [log (1 - p (x i)) + y i log p (x i) 1 - p (x i)] = \sum i = 1 m [log (1 - 1 1 + e - θ T x i) + y i log (1 + e - θ T x i) - 1 1 - (1 + e - θ T x i) - 1] = \sum i = 1 m [log e - θ T x i 1 + e - θ T x i + y i log 1 (1 + e - θ T x i) - 1] = \sum i = 1 m [log 1 e θ T x i + 1 + y i log e θ T x i] = \sum i = 1 m - log (e θ T x i + 1) + \sum i = 1 m y i θ T x i

求l(θ)对θj的偏导数：

\partial l (θ) \partial θ j = \partial θ j [\sum i = 1 m - log (e θ T x i + 1) + \sum i = 1 m y i θ T x i] = \sum i = 1 m - e θ T x i x j i 1 + e θ T x i + \sum i = 1 m y i x j i = \sum i = 1 m [y i - e θ T x i 1 + e θ T x i] x j i = \sum i = 1 m [y i - 1 1 + e - θ T x i] x j i = \sum i = 1 m [y i - p (x i; θ)] x j i

最后，通过梯度上升求l(θ)最大化时θ的近似解：

θ j : = θ j + α \partial l (θ) \partial θ j

将上式写成向量形式，即：θ=θ+α▽l(θ)。