ML笔记——逻辑回归

想法

先考虑二值的分类（预测结果只有好／坏，输／赢，行动／停留等等），再考虑多值的分类（预测结果含有两种以上情况：天气是晴／多云／下雨，心情是开心／悲伤／忧郁等等）
当有如下两组数据时
ML笔记——逻辑回归

也像线性回归时那样，尝试用一个函数表达式将它表示出来。

数学表示

在逻辑回归中我们尝试用sigmoid函数（或logistic函数）去拟合，图像如下图
ML笔记——逻辑回归
结合所使用的数据，可以使用如下公式
${\begin{matrix} g (z) = \frac{1}{1 + e^{- z}} \\ h_{θ} (x) = g (θ^{T} X) \end{matrix}$
即
$h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} X}}$
其中 $θ^{T} X$ 叫做决策边界，不做特别说明都指线性函数
通过代价函数表示 $θ$ 取值的合理性
$J (θ) = \frac{1}{m} \sum_{i = 1}^{m} C o s t (h_{θ} (x^{i}), y^{i})$
$C o s t (h_{θ} (x^{i}), y^{i}) = {\begin{matrix} - \log (h_{θ} (x^{i})) y^{i} = 1 \\ - \log (1 - h_{θ} (x^{i})) y^{i} = 0 \end{matrix}$ （本文中的 $\log$ 与 $\ln$ 等价）
即
$J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{i} \log (h_{θ} (x^{i})) + (1 - y^{i}) \log (1 - h_{θ} (x^{i}))]$
并用梯度下降算法，取 $θ$ 有 $min_{θ} J (θ)$
对于多值的分类，可以转换为二值处理
将 $n$ 种预测情况分别从总体数据人为的分离出来，做一次逻辑回归，得到 $h_{θ}^{i} (x)$ （其中的 $i$ 表示第 $i$ 种预测情况）
对于需要作出预测的数据 $x$ ，将得到 $max_{i} h_{θ}^{i} (x)$ 的一个结果

胡思乱想时刻

为什么 $h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} X}}$ 能够比线性函数更好的拟合离散的数据

首先，sigmoid函数的取值范围是 $(0, 1)$ ，而线性函数的取值可能落在 $(0, 1)$ 之外
其次，sigmoid函数又一个特殊点，如上图所示当 $x = 0$ 时，sigmoid函数的取值为 $0.5$ ，将整个取值范围分成两份，这也恰好对应于我们所要求的 $y \in {0, 1}$ ；对于线性函数，很难找到这样一个点或者说找到这样一个点不能达到预想的效果。
决策边界如何作用于sigmoid函数达到拟合数据集的目的

第一问中提到，特殊点的位置决定了如何划分sigmoid函数的取值，那么选择合适的决策边界用以确定特殊点位置，就能划分数据集。
利用sigmoid函数的性质，我们对 $h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} X}}$ 分析
结合sigmoid图像，设 $h_{θ} (x) < 0.5$ 时， $y = 0$ ； $h_{θ} (x) \geq 0.5$ 时， $y = 1$
则 $\frac{1}{1 + e^{- θ^{T} X}} < \frac{1}{2}$ ，也就是 $1 + e^{- θ^{T} X} > 2$ ， $e^{- θ^{T} X} > 1$ ，两边取对数后， $- θ^{T} X > 0$
也就是 $θ^{T} X < 0$ 时， $y = 0$ ，同理， $θ^{T} X \geq 0$ 时， $y = 1$
结合图像来说就是，决策边界的两侧对应 $y$ 的不同取值

对于单变量 $x$ ，如图

如果取 $x = 1$ 时，就能将两个数据集分为左右两半，当 $x < 1$ 时， $y = 0$ ，当 $x \geq 1$ 时， $y = 1$
又如图，存在多个变量时，

如果选取直线 $2 x_{1} + 1.5 x_{2} = 3$ ，也能将两个数据集分开，当 $2 x_{1} + 1.5 x_{2} < 3$ 时， $y = 0$ ，当 $2 x_{1} + 1.5 x_{2} \geq 3$ 时， $y = 1$
此外还适合于多项式的形式

图中，当 $3 x_{1}^{2} + 5 x_{2}^{2} < 12$ 时， $y = 0$ ，当 $3 x_{1}^{2} + 5 x_{2}^{2} \geq 12$ 时， $y = 1$
注：线性回归时，我们希望数据都落在线上；而逻辑回归时，我们希望数据都分散在线的两侧
$C o s t (h_{θ} (x^{i}), y^{i})$

该类函数的选择，需要做到能反映预测值与真实值的差距，同时需要保证该函数 $\frac{f (x_{1}) + f (x_{2})}{2} \leq f (\frac{x_{1} + x_{2}}{2})$ （方便计算）
虽然用 $(h_{θ} (x^{i}) - y^{i})^{2}$ 能表示预测值与真实值的差距，但是不满足存在唯一的极小值点
如果取 $C o s t (h_{θ} (x^{i}), y^{i}) = {\begin{matrix} - \log (h_{θ} (x^{i})) y^{=} 1 \\ - \log (1 - h_{θ} (x^{i})) y^{i} = 0 \end{matrix}$ 那么满足上述的两个条件
当 $y^{i} = 0$ 时， $C o s t (h_{θ} (x^{i}), y^{i}) = - \log (1 - h_{θ} (x^{i}))$
已知 $h_{θ} (x) \in (0, 1)$ ，则 $1 - h_{θ} (x) \in (0, 1)$
$C o s t (h_{θ} (x^{i}), y^{i}) = - \log (1 - h_{θ} (x^{i}))$ 的图像如下

当假设函数越接近 $0$ 的时候， $C o s t$ 函数越接近 $0$ ；当假设函数越接近 $1$ 时， $C o s t$ 函数越趋于 $\infty$ ，也就是假设函数越接近 $0$ 的时候，这个模型预测越正确
再考虑到函数接近 $0$ 时， $y $ 的取值
所以，当 $y^{i} = 0$ 时，用 $C o s t (h_{θ} (x^{i}), y^{i}) = - \log (1 - h_{θ} (x^{i}))$ 表示偏差
同理，当 $y^{i} = 1$ 时，用 $C o s t (h_{θ} (x^{i}), y^{i}) = - \log (h_{θ} (x^{i}))$ 表示偏差
求 $θ$ 的过程

利用梯度下降算法，求解 $θ$ 值
$θ_{j} = θ_{j} - α \frac{\partial}{\partial θ_{j}} J (θ)$
$h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} X}}, 1 - h_{θ} (x) = \frac{e^{- θ^{T} X}}{1 + e^{- θ^{T} X}}$
其中 $\frac{\partial}{\partial θ_{j}} J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} \frac{\partial}{\partial θ_{j}} [y^{i} \log (h_{θ} (x^{i})) + (1 - y^{i}) \log (1 - h_{θ} (x^{i}))] = - \frac{1}{m} \sum_{i = 1}^{m} [y^{i} \cdot \frac{1}{h_{θ} (x^{i})} \cdot \frac{1}{(1 + e^{- θ^{T} X})^{2}} \cdot e^{- θ^{T} X} \cdot x_{j}^{i} - (1 - y^{i}) \cdot \frac{1}{1 - h_{θ} (x^{i})} \cdot \frac{1}{(1 + e^{- θ^{T} X})^{2}} \cdot e^{- θ^{T} X} \cdot x_{j}^{i}] = - \frac{1}{m} \sum_{i = 1}^{m} [(\frac{y^{i}}{h_{θ} (x^{i})} + \frac{y^{i} - 1}{1 - h_{θ} (x^{i})}) \cdot (\frac{1}{(1 + e^{- θ^{T} X})^{2}} \cdot e^{- θ^{T} X} \cdot x_{j}^{i})] = - \frac{1}{m} \sum_{i = 1}^{m} [\frac{y^{i} - y^{i} h_{θ} (x^{i}) - h_{θ} (x^{i}) + y^{i} h_{θ} (x^{i})}{h_{θ} (x^{i}) (1 - h_{θ} (x^{i}))} \cdot \frac{1}{(1 + e^{- θ^{T} X})^{2}} \cdot e^{- θ^{T} X} \cdot x_{j}^{i}]$
上式中 $h_{θ} (x^{i}) (1 - h_{θ} (x^{i})) = \frac{e^{- θ^{T} X}}{(1 + e^{- θ^{T} X})^{2}}$
得到原式 $\frac{\partial}{\partial θ_{j}} J (θ) = \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{i}) - y^{i}) \cdot x_{j}^{i}$