（LXTML笔记）回顾LR，logR，SGD

由于后面关于SVM和LR，logR的结合，这里有必要重新回顾一下LR，logR的一些相关内容。

Linear Regression

我们这里考虑的是平方误差，即

m i n_{w} E_{i n} = \frac{1}{N} | | X w - y | |^{2},

我们考察

\nabla E_{i n} = 0

，即可以得到

这里关于

X^{T} X

的可逆性（概率）的讨论见PIA的矩阵分析讨论班的相关内容。

Logistic Regression

有时候不想分得过于绝对，而只是将结果集从 ${- 1, + 1} \to [0, 1]$ 上的连续量。继续用线性模型，即用 $s = w^{T} x$ 来作为打分函数，引入光滑可微单调的sigmoid函数
（LXTML笔记）回顾LR，logR，SGD

接下来用likelihood的思想来给出模型，我们不妨设 $f (x) = P (+ 1 | x)$ ，即 $x$ 被正确分类的结果，如下图所示：
（LXTML笔记）回顾LR，logR，SGD
对于给定的数据集 $D$ ，其每一个数据点都分类正确的概率应该是如绿色框所示的乘积，

注意到图的左上角关于 $P (y | x)$ 的结果，我们可以化简绿色框的公式如上图所示，但是由于我们并不知道真实的 $f$ ，所以我们此时用极大似然法来用 $h$ 来替代 $f$ ，注意到，如果我们用sigmoid函数的话，我们有 $h (- x) = 1 - h (x)$ ，根据这个性质，我们可以化简有
（LXTML笔记）回顾LR，logR，SGD
为了方便，根据常用的一些套路对其做点一般同解的小变换，即将问题转换为如下最优化问题

接下来便是用GD法来求解这个非线性的最优化问题