机器学习线性模型(2)

我们已经知道如何使用线性模型进行回归学习，如果要做分类任务呢？

广义线性模型： $y = g^{- 1} (w^{T} x + b)$

现在只需找到一个单调可微函数 $g^{- 1}$ 将分类任务的真实标记 $y$ 与线性回归模型的预测值 $w^{T} x + b$ 联系起来.

考虑二分类任务， $y \in {0, 1}$ , $z = w^{T} x + b$ 是实值，将实值z转化微0/1值，最理想的是单位跃进函数

y = {\begin{cases} 0, & z < 0 \\ 0.5, & z = 0 \\ 1, & z > 0 \end{cases}

但是单位跃进函数不连续，不是我们要找的

g^{- 1}

，所以要找一个在一定程度上近似单位跃进函数的单调可微的函数，就是对数几率函数(logistic function)

y = \frac{1}{1 + e^{- z}}

机器学习线性模型(2)

从图中可以看到，对数几率函数是一种sigmoid函数(形似S的函数)

将对数几率函数作为 $g^{- 1}$ ，得到

y = \frac{1}{1 + e^{- (w^{T} x + b)}} — — — — — — — — (1)

做变换后：

l n \frac{y}{1 - y} = w^{T} x + b — — — — — — — — (2)

若将y视作x作为正例的可能性，则1-y是x作为反例的可能性， $\frac{y}{1 - y}$ 称作几率， $l n \frac{y}{1 - y}$ 称为对数几率

可以看出式(2)是在用线性回归模型的预测结果去逼近真实标记y的对数几率，对应的模型叫对数几率回归模型(logistic regression)，注意：它实际是一种分类学习方法。

如何来确定(1)式中的 $w$ 和b？将y视为类后验概率估计 $p (y = 1 | x)$ ，得到下式：

l n \frac{p (y = 1 | x)}{p (y = 0 | x)} = w^{T} x + b

\Rightarrow \frac{p (y = 1 | x)}{1 - p (y = 1 | x)} = e^{w^{T} x + b}

\Rightarrow p (y = 1 | x) = \frac{e^{w^{T} x + b}}{e^{w^{T} x + b} + 1}

显然，

\Rightarrow p (y = 0 | x) = \frac{1}{e^{w^{T} x + b} + 1}

于是，我们可以通过极大似然法来估计

w

和b，给定数据集

(x_{i}, y_{i}), i = 1, 2 \dots, m

,对数几率回归模型最大化对数似然，即每个样本属于其真实标记的概率越大越好：

ℓ (w, b) = \sum_{i = 1}^{m} l n p (y_{i} | x_{i}; w, b)

令：

β = (w; b)

，

\hat{x} = (x; 1)

，故

w^{T} x + b = β^{T} \hat{x}

令:

p_{1} (\hat{x}; β) = p (y = 1 | \hat{x}; β)

p_{0} (\hat{x}; β) = p (y = 0 | \hat{x}; β)

似然项可以重写为：

p (y_{i} | x_{i}; w, b) = y_{i} p_{1} (\hat{x}; β) + (1 - y_{i}) p_{0} (\hat{x}; β)

= y_{i} \frac{e^{β^{T} \hat{x}}}{e^{β^{T} \hat{x}} + 1} + (1 - y_{i}) \frac{1}{e^{β^{T} \hat{x}} + 1}

= \frac{1 + y_{i} e^{β^{T} \hat{x}} - y_{i}}{e^{β^{T} \hat{x}} + 1}

对上式取对数

l n (1 + y_{i} e^{β^{T} \hat{x}} - y_{i}) - l n (e^{β^{T} \hat{x}} + 1)

因为

y_{i} \in {0, 1}

，所以上式的第一项要么为0，要么为

β^{T} \hat{x}

,故上边的最大化式等价于下面这个最小化式

ℓ (β) = \sum_{i = 1}^{m} (- y_{i} β^{T} \hat{x} + l n (e^{β^{T} \hat{x}} + 1))

利用经典的数值优化算法如梯度下降、牛顿法都可以得到上式最优解。

β^{*} = \arg min_{β} l (β)

线性判别分析(LDA)也称为Fisher判别分析

思想：给定训练样例集，设法将样例投影到一条直线上，使类内方差最小，类间方差最大，使分类效果最好。

机器学习线性模型(2)

给定数据集 $(x_{i}, y_{i}), i = 1, 2 \dots, m$ , $y_{i} \in {0, 1}$ ，令 $X_{i}, μ_{i}, Σ_{i}$ 分别表示第 $i \in {0, 1}$ 类示例的集合、均值向量、协方差矩阵。

则两类样本的中心在直线上的投影分别为： $w^{T} μ_{0}$ 和 $w^{T} μ_{1}$

两类样本的协方差分别为： $w^{T} Σ_{0} w$ 和 $w^{T} Σ_{1} w$

使同类样例投影点尽可能近，可以让同类样例投影点的协方差尽可能小，即 $w^{T} Σ_{0} w + w^{T} Σ_{1} w$ 尽可能小。

使异类样例的投影点尽可能远，可以让类中心之间的距离尽可能大，即 $| | w^{T} μ_{0} - w^{T} μ_{1} | |^{2}$ 尽可能大。

所以我们的目标是最大化下式：

J = \frac{| | w^{T} μ_{0} - w^{T} μ_{1} | |^{2}}{w^{T} Σ_{0} w + w^{T} Σ_{1} w}

= \frac{w^{T} (μ_{0} - μ_{1}) (μ_{0} - μ_{1})^{T} w}{w^{T} (Σ_{0} + Σ_{1}) w}

定义类内散度矩阵 $S_{w}$ :

S_{w} = Σ_{0} + Σ_{1} = \sum_{x \in X_{0}} (x - μ_{0}) (x - μ_{0})^{T} + \sum_{x \in X_{1}} (x - μ_{1}) (x - μ_{1})^{T}

定义类间散度矩阵

S_{b}

S_{b} = (μ_{0} - μ_{1}) (μ_{0} - μ_{1})^{T}

所以J可以重写为：

J == \frac{w^{T} S_{b} w}{w^{T} S_{w} w}

这就是LDA要最大化的目标，即 $S_{b}$ 与 $S_{w}$ 的广义瑞利商。
可以看到，上式分子分母都是w的二次项，所以解与w的长度无关，只与其方向有关，不失一般性，令 $w^{T} S_{w} w = 1$ ,则上式等价于

min_{w} - w^{T} S_{b} w s . t . w^{T} S_{w} w = 1

由拉格朗日乘子法，上式等价于：

S_{b} w = λ S_{w} w

S_{b} w = (μ_{0} - μ_{1}) (μ_{0} - μ_{1})^{T} w

,其中

(μ_{0} - μ_{1})^{T} w

是一个标量，所以

S_{b} w

的方向恒为

μ_{0} - μ_{1}

,故有：

S_{b} w = λ (μ_{0} - μ_{1})

所以可以得到： $w = S_{w}^{- 1} (μ_{0} - μ_{1})$

当两类数据同先验，满足高斯分布且协方差相等时，LDA可以达到最优分类！

LDA推广到多分类任务中，emmmmm以后再看吧