SVM——硬间隔最大化

本文参考自http://cs229.stanford.edu/notes/cs229-notes3.pdf，但采用《统计学习方法》中的符号系统

数据集 $D = {(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})}$ ， $x^{(i)} \in R^{n}$ ， $y^{(i)} \in {- 1, 1}$

超平面 $w^{T} x + b = 0$ ， $w \in R^{n}$ ， $b \in R$

假设数据集 $D$ 线性可分，则存在超平面 $w^{T} x + b = 0$ ，当 $y^{(i)} = 1$ 时， $w^{T} x^{(i)} + b > 0$ ，当 $y^{(i)} = - 1$ 时， $w^{T} x^{(i)} + b < 0$

【立体几何知识】

点 $(x_{0}, y_{0}, z_{0})$ 到平面 $A x + B y + C z + D = 0$ 的距离为

$\begin{aligned} d = \frac{| A x_{0} + B y_{0} + C z_{0} + D |}{\sqrt{A^{2} + B^{2} + C^{2}}} \end{aligned}$

【几何间隔】

类似的，样本点 $(x^{(i)}, y^{(i)})$ 到超平面 $w^{T} x + b = 0$ 的距离 $\begin{aligned} γ^{(i)} = \frac{| w^{T} x^{(i)} + b |}{‖ w ‖} \end{aligned}$ ，称为几何间隔

利用标签 $y^{(i)}$ 可去掉分子的绝对值符号，得到 $\begin{aligned} γ^{(i)} = \frac{y^{(i)} (w^{T} x^{(i)} + b)}{‖ w ‖} \end{aligned}$

对于数据集 $D$ ，所有样本的几何间隔中的最小值， $γ_{D} = min {γ^{(1)}, γ^{(2)}, . . ., γ^{(m)}}$ ，称为超平面 $w^{T} x + b = 0$ 关于数据集 $D$ 的几何间隔

【CS229上关于几何间隔的证明】

SVM——硬间隔最大化

如图所示， $\begin{aligned} \frac{w}{‖ w ‖} \end{aligned}$ 为分类超平面 $w x + b = 0$ 的单位法向量，向量 $\vec{O A}$ 的坐标（也是点 $A$ 的坐标）为 $x_{i}$ ，样本 $x_{i}$ 离超平面的距离为 $d_{i}$ ，则向量 $\vec{B A}$ 的坐标为 $\begin{aligned} d_{i} \cdot \frac{w}{‖ w ‖} \end{aligned}$

于是 $\vec{O B} = \vec{O A} - \vec{B A}$ ，即向量 $\vec{O B}$ 的坐标（也是点 $B$ 的坐标）为 $\begin{aligned} x_{i} - d_{i} \cdot \frac{w}{‖ w ‖} \end{aligned}$

由于点 $B$ 在超平面上，代入超平面方程，得 $\begin{aligned} w (x_{i} - d_{i} \cdot \frac{w}{‖ w ‖}) + b = 0 \end{aligned}$

解得 $\begin{aligned} d_{i} = \frac{w x_{i} + b}{‖ w ‖} \end{aligned}$

【函数间隔】

超平面 $w x + b = 0$ 关于样本点 $(x_{i}, y_{i})$ 的函数间隔定义为几何间隔的 $‖ w ‖$ 倍，即 $γ = y_{i} (w x_{i} + b)$

对于数据集 $D$ ，所有样本的函数间隔中的最小值， $γ_{D} = min {γ_{1}, γ_{2}, . . ., γ_{n}}$ ，称为超平面 $w x + b = 0$ 关于数据集 $D$ 的函数间隔

函数间隔与几何间隔的关系为 $\begin{aligned} d_{i} = \frac{γ_{i}}{‖ w ‖} \end{aligned}$

【间隔最大化】

SVM的目标是寻找一个几何间隔最大的超平面，最优化问题表达如下：

$\begin{aligned} max_{w, b} d_{D} s.t. \frac{y_{i} (w x_{i} + b)}{‖ w ‖} ⩾ d_{D} \end{aligned}$

代入 $\begin{aligned} d_{D} = \frac{γ_{D}}{‖ w ‖} \end{aligned}$ ，将几何间隔替换为函数间隔

$\begin{aligned} max_{w, b} \frac{γ_{D}}{‖ w ‖} s.t. \frac{y_{i} (w x_{i} + b)}{‖ w ‖} ⩾ \frac{γ_{D}}{‖ w ‖} \end{aligned}$

化简 $s.t.$ 部分，得

$\begin{aligned} max_{w, b} \frac{γ_{D}}{‖ w ‖} s.t. y_{i} (w x_{i} + b) ⩾ γ_{D} \end{aligned}$

现在分析一下 $γ_{D}$ 对最优解的影响

当 $γ_{D} = 1$ 时，得到一组最优解 $w_{1}^{*}$ ， $b_{1}^{*}$ ，当 $γ_{D} = 2$ 时，得到一组最优解 $w_{2}^{*}$ ， $b_{2}^{*}$

这两组最优解的关系为： $w_{2}^{*} = 2 w_{1}^{*}$ ， $b_{2}^{*} = 2 b_{1}^{*}$ ，是成比例的，所以将 $γ_{D}$ 取一个特殊值即可，此处取 $γ_{D} = 1$ ，于是得到

$\begin{aligned} max_{w, b} \frac{1}{‖ w ‖} s . t . y_{i} (w x_{i} + b) ⩾ 1 \end{aligned}$

因为 $\begin{aligned} max_{w, b} \frac{1}{‖ w ‖} \Leftrightarrow min_{w, b} ‖ w ‖ \Leftrightarrow min_{w, b} {‖ w ‖}^{2} \Leftrightarrow min_{w, b} \frac{1}{2} {‖ w ‖}^{2} \end{aligned}$

所以得到最终的线性可分SVM的最优化问题为：

$\begin{aligned} min_{w, b} \frac{1}{2} {‖ w ‖}^{2} s.t. y_{i} (w x_{i} + b) ⩾ 1 \end{aligned}$

我们已经得到了SVM的原始问题

$\begin{aligned} min_{w, b} \frac{1}{2} {‖ w ‖}^{2} \end{aligned}$

$s.t. 1 - y_{i} (w x_{i} + b) ⩽ 0$

这个问题属于凸二次规划问题，已经可以使用相关的算法包来求解了，但是《机器学习》（周志华）中说“我们可以有更高效的解法”，这个更高效的解法就是转而去解原始问题对应的对偶问题

对于SVM，原始问题和对偶问题是等价的（ $d^{*} = p^{*}$ ），所以求得了对偶问题的最优解 $d^{*}$ ，就相当于得到了原始问题的最优解 $p^{*}$

【SVM的对偶问题】

对偶问题都是从定义拉格朗日函数开始的

$\begin{aligned} L (w, b, α) & = \frac{1}{2} {‖ w ‖}^{2} + \sum_{i = 1}^{n} α_{i} [1 - y_{i} (w x_{i} + b)] \\ = \frac{1}{2} {‖ w ‖}^{2} - \sum_{i = 1}^{n} α_{i} y_{i} (w x_{i} + b) + \sum_{i = 1}^{n} α_{i} \\ = \frac{1}{2} {‖ w ‖}^{2} - \sum_{i = 1}^{n} α_{i} y_{i} x_{i} w - \sum_{i = 1}^{n} α_{i} y_{i} b + \sum_{i = 1}^{n} α_{i} \\ = \frac{1}{2} {‖ w ‖}^{2} - w \sum_{i = 1}^{n} α_{i} y_{i} x_{i} - b \sum_{i = 1}^{n} α_{i} y_{i} + \sum_{i = 1}^{n} α_{i} \end{aligned}$

求解对偶问题实际上是求解拉格朗日函数的极大极小问题： $max_{α : α_{i} ⩾ 0} min_{w, b} L (w, b, α)$
（记住对偶问题是先挑“矮个儿”再挑“高个儿”，先处理原变量，再处理对偶变量）

第一步，求 $min_{w, b} L (w, b, α)$ ，其中 $w ， b$ 为变量， $α$ 为常量同时消去变量 $w ， b$

令 $\begin{aligned} \nabla_{w} L (w, b, α) = w - \sum_{i = 1}^{n} α_{i} y_{i} x_{i} = 0 \end{aligned}$

$\begin{aligned} \nabla_{b} L (w, b, α) = - \sum_{i = 1}^{n} α_{i} y_{i} = 0 \end{aligned}$

得 $\begin{aligned} w = \sum_{i = 1}^{n} α_{i} y_{i} x_{i} \end{aligned}$

$\begin{aligned} \sum_{i = 1}^{n} α_{i} y_{i} = 0 \end{aligned}$

上述2个式子的意义略有区别，式1中可将变量 $w$ 用变量 $α$ 代替，而式2却不包含变量 $b$ ，是一个实实在在的约束条件，需要将该约束条件带到第二步中

但不管怎样，将上述2个式子代入 $L (w, b, α)$ 中，总可以消去变量 $w$ ， $b$
（注意：在第2项中，当代入 $\begin{aligned} w = \sum_{i = 1}^{n} α_{i} y_{i} x_{i} \end{aligned}$ 时，因为 $L (w, b, α)$ 中使用过了下标 $i$ ，因此需要把下标 $i$ 换为 $j$ ）

$\begin{aligned} min_{w, b} L (w, b, α) & = \frac{1}{2} {‖ w ‖}^{2} - w \sum_{i = 1}^{n} α_{i} y_{i} x_{i} - b \sum_{i = 1}^{n} α_{i} y_{i} + \sum_{i = 1}^{n} α_{i} \\ = \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i} x_{j} - (\sum_{j = 1}^{n} α_{j} y_{j} x_{j}) (\sum_{i = 1}^{n} α_{i} y_{i} x_{i}) - b \cdot 0 + \sum_{i = 1}^{n} α_{i} \\ = \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i} x_{j} - \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i} x_{j} + \sum_{i = 1}^{n} α_{i} \\ = - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i} x_{j} + \sum_{i = 1}^{n} α_{i} \end{aligned}$

即 $\begin{aligned} min_{w, b} L (w, b, α) = - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i} x_{j} + \sum_{i = 1}^{n} α_{i} \end{aligned}$ （仅包含变量 $α$ ）

第二步，求 $max_{α : α_{i} ⩾ 0} min_{w, b} L (w, b, α)$ ，即得到如下的对偶问题

$\begin{aligned} max_{α} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i} x_{j} + \sum_{i = 1}^{n} α_{i} \end{aligned}$

$\begin{aligned} s.t. \sum_{i = 1}^{n} α_{i} y_{i} = 0 \end{aligned}$ （在第一步中得到的约束条件，照抄过来）
$α_{i} ⩾ 0$

因为对于原始问题， $\begin{aligned} \frac{1}{2} {‖ w ‖}^{2} \end{aligned}$ 和 $1 - y_{i} (w x_{i} + b)$ 均为凸函数，没有等式约束，并且存在 $(w, b)$ 使得所有不等式约束 $1 - y_{i} (w x_{i} + b) ⩽ 0$ 成立（因为规定了数据集线性可分）

所以存在一组 $(w^{*}, b^{*}, α^{*})$ ，满足 $p^{*} = d^{*} = L (w^{*}, b^{*}, α^{*})$

故求解对偶问题等价于求解原始问题，即求解对偶问题得到的最优解其实就是原始问题的最优解

【KKT条件】

原问题的约束
① $1 - y_{i} (w x_{i} + b) ⩽ 0 i = 1, 2, \dots, n$

梯度等于0
② $\begin{aligned} \nabla_{w} L (w, b, α) = 0 \Rightarrow w = \sum_{i = 1}^{n} α_{i} y_{i} x_{i} \end{aligned}$
③ $\begin{aligned} \nabla_{b} L (w, b, α) = 0 \Rightarrow \sum_{i = 1}^{n} α_{i} y_{i} = 0 \end{aligned}$

不等式约束的拉格朗日乘子大于等于0
④ $α_{i} ⩾ 0 i = 1, 2, \dots, n$

对偶互补条件
⑤ $α_{i} [1 - y_{i} (w x_{i} + b)] = 0 i = 1, 2, \dots, n$

【求解对偶问题】

$\begin{aligned} max_{α} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i} x_{j} + \sum_{i = 1}^{n} α_{i} \end{aligned}$
$\begin{aligned} s.t. \sum_{i = 1}^{n} α_{i} y_{i} = 0 \end{aligned}$
$α_{i} ⩾ 0$

该对偶问题是凸二次规划问题，仍然可以使用现成的算法包求解，但仍然不够高效（该问题的规模正比于训练样本数——《机器学习》周志华），因此根据该问题定制了一个更高效的算法，即SMO算法

求解对偶问题（使用SMO算法），得到最优解 $α^{*}$ ，此时任务还没有完成，还需要利用 $α^{*}$ ，求出 $w^{*}$ ， $b^{*}$

对于 $w^{*}$ ，利用KKT条件②计算： $\begin{aligned} w^{*} = \sum_{i = 1}^{n} α_{i}^{*} y_{i} x_{i} \end{aligned}$

对于 $b^{*}$ ，有KKT条件⑤成立：中的对偶互补条件 $α_{i}^{*} [1 - y_{i} (w^{*} x_{i} + b^{*})] = 0$ 成立

对于 $α^{*}$ 中的一个满足 $α_{j}^{*} > 0$ 的分量 $α_{j}^{*}$ ，有 $α_{j}^{*} [1 - y_{j} (w^{*} x_{j} + b^{*})] = 0 \Rightarrow 1 - y_{j} (w^{*} x_{j} + b^{*}) = 0$

$\begin{aligned} y_{j} (w^{*} x_{j} + b^{*}) - 1 & = 0 \\ y_{j} (w^{*} x_{j} + b^{*}) - y_{j}^{2} & = 0 （使用 y_{j}^{2} 替换1） \\ w^{*} x_{j} + b^{*} - y_{j} & = 0 \\ b^{*} & = y_{j} - x_{j} w^{*} \\ b^{*} & = y_{j} - x_{j} \sum_{i = 1}^{n} α_{i}^{*} y_{i} x_{i} （代入 w^{*} = \sum_{i = 1}^{n} α_{i}^{*} y_{i} x_{i} ） \\ b^{*} & = y_{j} - \sum_{i = 1}^{n} α_{i}^{*} y_{i} x_{i} x_{j} \end{aligned}$

综上所述，使用 $α^{*}$ 计算 $w^{*}$ ， $b^{*}$ 的公式为
$\begin{aligned} w^{*} = \sum_{i = 1}^{n} α_{i}^{*} y_{i} x_{i} \end{aligned}$
$\begin{aligned} b^{*} = y_{j} - \sum_{i = 1}^{n} α_{i}^{*} y_{i} x_{i} x_{j} \end{aligned}$ （样本 $(x_{j}, y_{j})$ 对应的 $α_{j} > 0$ ）

理论上有多少个支持向量，就能算出多少个参数 $b^{*}$ ，这时，对所有 $b^{*}$ 求平均值即可

计算出 $w^{*}$ ， $b^{*}$ 之后，对于一个未知的样本 $x_{test}$ ，我们需要计算 $w^{T} x_{test} + b$

我们仍然将 $w$ 展开，看看会得到什么

$\begin{aligned} w^{T} x_{test} + b & = {(\sum_{i = 1}^{n} α_{i} y_{i} x_{i})}^{T} x_{test} + b \\ = \sum_{i = 1}^{n} α_{i} y_{i} ⟨ x_{i}, x_{test} ⟩ + b \end{aligned}$

我们发现，除了支持向量以外的 $α_{i}$ 都是等于 $0$ 的， $x_{test}$ 只需要与支持向量做内积即可