找工作之逻辑回归

注：本博客定义为学习笔记，为本人通过一些材料和书籍整理而来，或许会有些许心得体会。

公式如下：

\begin{matrix} (0) & f (x) = w x + b \end{matrix}

给定一组样本

(x_{1}, y_{1}) (x_{2}, y_{1}) \dots (x_{i}, y_{i}) \dots (x_{n}, y_{n})

，若要用一个函数来拟合所有样本点的y值，可以用公式0来进行拟合。图如下（来自百度百科）：
找工作之逻辑回归

L (w, b) = \sum_{i = 1}^{n} (f (x) - y_{i})^{2}

令均方误差最小化，即：

\begin{aligned} (w^{*}, b^{*}) & = \underset{(w, b)}{\arg min} \sum_{i = 1}^{n} (f (x_{i}) - y_{i})^{2} \\ = \underset{(w, b)}{\arg min} \sum_{i = 1}^{n} (w x_{i} + b - y_{i})^{2} \end{aligned}

分别令L(w,b)对w和b进行微分，令微分为0：

\frac{\partial L (w, b)}{\partial w} = 0 \frac{\partial L (w, b)}{\partial b} = 0

求出结果如下：

\begin{aligned} w & = \frac{\sum_{i = 1}^{n} y_{i} (x_{i} - \bar{x})}{\sum_{i = 1}^{n} x_{i}^{2} - \frac{1}{n} {(\sum_{i = 1}^{n} x_{i})}^{2}} \\ b & = \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - w x_{i}) \end{aligned}

f (x_{i}) = w^{T} x + b

x_{i} = (x_{i 1}; x_{i 2}; \dots; x_{i d})

令

w = (w; b)

同样应用最小二乘法进行参数估计，得

w^{*} = \underset{w}{\arg min} (y - x w)^{T} (y - x w)

令

L (w) = (y - x w)^{T} (y - x w)

，对L(w)求导为0，得：

\frac{\partial L (w)}{\partial w} = 2 x^{T} (y - x w) = 0

\begin{aligned} P (Y = 1 | x) & = \frac{1}{1 + e^{- w \cdot x + b}} = \frac{e^{w \cdot x + b}}{1 + e^{w \cdot x + b}} \\ P (Y = 0 | x) & = 1 - P (Y = 1 | x) = \frac{1}{1 + e^{w \cdot x + b}} \end{aligned}

令

w = (w; b)

，此时，观察：

l o g \frac{P (Y = 1 | x)}{P (Y = 0 | x)} = w \cdot x

即求对数之后是线性的，因此逻辑回归是对数线性模型。
逻辑回归是分类任务，图如下：
找工作之逻辑回归

sigmoid函数公式如下：

f (x) = \frac{1}{1 + e^{- x}}

图像如下所示：

sigmoid函数有一个很好的特性，即：

f' (x) = f (x) (1 - f (x))

似然函数为：

L (w) = \prod_{i = 1}^{n} P (Y = 1 | x_{i})^{y_{i}} P (Y = 0 | x_{i})^{1 - y_{i}}

对其求对数，得对数似然函数：

\log L (w) = \sum_{i = 1}^{n} [y_{i} \log \frac{e^{w \cdot x_{i}}}{1 + e^{w \cdot x_{i}}} + (1 - y_{i}) \log \frac{1}{1 + e^{w \cdot x_{i}}}] = \sum_{i = 1}^{n} [y_{i} (w \cdot x_{i}) - \log (1 + e^{w \cdot x_{i}})]

最大化对数似然函数，即可求出参数w的估计值。

损失函数为负的对数似然函数：

\hat{L (w)} = - \frac{1}{n} \log L (w) = - \frac{1}{n} \sum_{i = 1}^{n} [y_{i} (w \cdot x_{i}) - \log (1 + e^{w \cdot x_{i}})]

将

\hat{L (w)}

记为

L (w)

，即

L (w) = - \frac{1}{n} \sum_{i = 1}^{n} [y_{i} (w \cdot x_{i}) - \log (1 + e^{w \cdot x_{i}})]

因此，极大化对数似然函数，即极小化损失函数。可用梯度下降法、拟牛顿法等优化方法来进行参数估计。

梯度下降法是一种迭代性的优化算法，先随机选取初始点 $w_{0}$ ，然后用下面的公式更新参数w，直到满足终止条件为止。

w = w - α \frac{\partial L (w)}{w}

其中，

α

为学习率，

\frac{\partial L (w)}{w} = - \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - \frac{e^{w \cdot x}}{1 + e^{w \cdot x}}) x_{i}

梯度下降过程如下：

李航，《统计学习方法》
赵志勇，《Python机器学习算法》
周志华，《机器学习》
Peter，《机器学习实战》
寒小阳，七月在线机器学习工程师
邹博，小象学院机器学习升级版