SVM——（六）软间隔目标函数求解

1.什么是软间隔

我们之前谈到过两种情况下的分类：一种是直接线性可分的；另外一种是通过 $ϕ (x)$ 映射到高维空间之后“线性可分”的。为什么后面这个“线性可分”要加上引号呢？这是因为在上一篇文章中有一件事没有和大家交代：虽然通过映射到高维空间的方式能够很大程度上使得原先线性不可分的数据集线性可分，但是我们并不能够一定保证它就是线性可分的，可能这个高维空间依旧线性不可分得换一个（事实上你还是不知道换哪一个更好，所以此时就要折中选择），或者保守的说即使线性可分了，但也可能会有过拟合现象。这是因为超平面对于异常点（outlier)过于敏感。如下图：

SVM——（六）软间隔目标函数求解

在左图，直线A为该数据集下的最优解；但是，此时若出现一个异常点（中图所示），它将导致分类直线发生剧烈的摆动，虽然最终也达到了将数据集分开的效果，但这显然不是我们希望的。我们将其称之为硬间隔(hard margin)，即不允许出现错分的情况，哪怕导致过拟合。所以，我们所期望的就是图右的这种情况：容许少量的错分，从而得到最优解，而这个容忍的则通过代价函数来调节。或者再极端一点就是，根本找不到超平面将其分开（不过拟合的前提下），必须得错分一些点。此时虚线与实现之间的间隔就称之为软间隔(soft margin)。

2.软间隔最大化

此时我们可以知道，如数据集中出现了异常点，必将导致该异常点的函数间隔小于1。所以，此时引入一个松弛变量( $ξ > 0$ )，使得函数加上松弛变量大于等于1.

\begin{matrix} (2.1) & y^{(i)} (w^{T} x^{(i)} + b) \geq 1 - ξ_{i} \end{matrix}

那么此时的目标函数可以重新改写为如下形式：

\begin{aligned} min_{w, b, ξ} & \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{m} ξ_{i} \\ s . t . & y^{(i)} (w^{T} x^{(i)} + b) \geq 1 - ξ_{i}, i = 1, 2, . . . m \\ (2.2) & ξ_{i} \geq 0, i = 1, 2, . . . m \end{aligned}

其中 $C > 0$ 称为惩罚参数，一般由应用问题决定， $C$ 越大时对误分类的惩罚越大.最小化目标函数(2.2)包含两层含义：使 $\frac{1}{2} | | w | |^{2}$ 尽量小，即间隔尽量打，同时使误分类点的个数尽量小，C是调和二者的系数。并且只要错分一个样本点，我们都将付出 $C ξ_{i}$ 的代价。

如先前一样，我们可以将其对应的广义拉格朗日函数写出：

\begin{matrix} (2.3) & L (w, b, ξ, α, r) = \frac{1}{2} w^{T} w + C \sum_{i = 1}^{m} ξ_{i} - \sum_{i = 1}^{m} α_{i} [y^{(i)} (w^{T} x^{(i)} + b) - 1 + ξ_{i}] - \sum_{i = 1}^{m} r_{i} ξ_{i} \end{matrix}

其中， $α_{i} \geq 0, r_{i} \geq 0$ 是拉格朗日乘数(为什么有这个条件，参见此文3.1)

则其对偶问题为：

\begin{aligned} max_{α} & W (α) = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i, j = 1}^{m} y^{(i)} y^{(j)} α_{i} α_{j} ⟨ x^{(i)}, x^{(j)} ⟩ \\ s . t . & 0 \leq α_{i} \leq C, i = 1, . . ., m \\ (2.4) & \sum_{i = 1}^{m} α_{i} y^{(i)} = 0 \end{aligned}

推导：
由 $(2.2)$ 可知：

\begin{aligned} min_{w, b, ξ} & \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{m} ξ_{i} \\ s . t . & g_{i} (w, b) = - [y^{(i)} (w^{T} x^{(i)} + b) - 1 + ξ_{i}] \leq 0, i = 1, 2, . . . m \\ (2.5) & h_{i} (ξ) = - ξ_{i} \leq 0, i = 1, 2, . . . m \end{aligned}

注： $h (w, b), h (ξ)$ 均为不等式约束条件

由 $(2.5)$ 可知：

\begin{aligned} (2.6) & L (w, b, ξ, α, r) = \frac{1}{2} w^{T} w + C \sum_{i = 1}^{m} ξ_{i} + \sum_{i = 1}^{m} α_{i} g_{i} (w, b) + r_{i} h_{i} (ξ) \end{aligned}

由 $(2.6)$ 可知：

\begin{aligned} (2.7) & θ_{p} (w, b, ξ) = max_{α_{i} \geq 0, r_{i} \geq 0} L (w, b, ξ, α, r) \end{aligned}

若 $g_{i} (w, b) > 0$ ，则只需任取 $α_{i}$ 无穷大，即可导致 $(2.7)$ 趋于无穷大；
若 $h_{i} (ξ) > 0$ ，则只需任取 $r_{i}$ 无穷大，即可导致 $(2.7)$ 趋于无穷大；
若 $g_{i} (w, b) \leq 0, h_{i} (ξ) \leq 0$ 两者同时满足，则即可满足 $θ_{p} = \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{m} ξ_{i}$

由以上3点分析可知：

\begin{aligned} (2.8) & θ_{p} (w, b, ξ) = {\begin{cases} \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{m} ξ_{i}, & if w, b, ξ satisfies primal constraints \\ \infty, & otherwise \end{cases} \end{aligned}

由 $(2.8)$ 和KKT条件可知：

\begin{aligned} (2.9) & d^{*} = max_{α_{i} \geq 0, r_{i} \geq 0} min_{w, b, ξ} L (w, b, ξ, α, r) = min_{w, b, ξ} max_{α_{i} \geq 0, r_{i} \geq 0} L (w, b, ξ, α, r) \end{aligned}

关于参数

w, b, ξ

，求

L

的极小值

W (α) :

由

\begin{aligned} \frac{\partial L}{\partial w} & = w - \sum_{i = 1}^{m} α_{i} y^{(i)} x^{(i)} = 0 \\ \frac{\partial L}{\partial b} & = - \sum_{i = 1}^{m} α_{i} y^{(i)} = 0 \\ \frac{\partial L}{\partial ξ_{i}} & = C - α_{i} - r_{i} = 0 \end{aligned}

这几个求导相对容易，注意一下最后一个求导时的下标就好
得

\begin{aligned} (2.10) & w = \sum_{i = 1}^{m} α_{i} y^{(i)} x^{(i)} \\ (2.11) & \sum_{i = 1}^{m} α_{i} y^{(i)} = 0 \\ (2.12) & C - α_{i} - r_{i} = 0 \end{aligned}

将

(2.10) (2.11) (2.12)

代入

(2.3)

得：

\begin{aligned} min_{w, b, ξ} & L (w, b, ξ, α, r) = \\ = \frac{1}{2} w^{T} w + \sum_{i = 1}^{m} C ξ_{i} - \sum_{i = 1}^{m} α_{i} [y^{(i)} w^{T} x^{(i)} + y^{(i)} b - 1 + ξ_{i}] - \sum_{i = 1}^{m} r_{i} ξ_{i} \\ = \frac{1}{2} w^{T} w + \sum_{i = 1}^{m} C ξ_{i} - w^{T} \sum_{i = 1}^{m} α_{i} y^{(i)} x^{(i)} - b \sum_{i = 1}^{m} α_{i} y^{(i)} + \sum_{i = 1}^{m} α_{i} - \sum_{i = 1}^{m} α_{i} ξ_{i} - \sum_{i = 1}^{m} r_{i} ξ_{i} \\ = \frac{1}{2} w^{T} w + \sum_{i = 1}^{m} (α_{i} + r_{i}) ξ_{i} - w^{T} w - b \cdot 0 + \sum_{i = 1}^{m} α_{i} - \sum_{i = 1}^{m} (α_{i} + r_{i}) ξ_{i} \\ = - \frac{1}{2} w^{T} w + \sum_{i = 1}^{m} α_{i} \\ = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i, j = 1}^{m} y^{(i)} y^{(j)} α_{i} α_{j} ⟨ x^{(i)}, x^{(j)} ⟩ \end{aligned}

关于 $α$ （因为 $ξ$ 被消去了）再对 $min_{w, b, ξ} L (w, b, ξ, α, r)$ 求极大即可得到 $(2.4)$

其中约束条件如下（因为这是保证 $min_{w, b, ξ} L (w, b, ξ, α, r)$ 存在的前提）：

\begin{aligned} (2.13) & \sum_{i = 1}^{m} α_{i} y^{(i)} = 0 \\ (2.14) & C - α_{i} - r_{i} = 0 \\ (2.15) & α_{i} \geq 0, i = 1 \dots m \\ (2.16) & r_{i} \geq 0, i = 1 \dots m \end{aligned}

利用

(2.14)

消去

r_{i}

，则可将

(2.14) - (2.16)

写成

\begin{matrix} (2.17) & 0 \leq α_{i} \leq C \end{matrix}

推导完毕

对于对偶问题 $(2.4)$ 成立的是必须满足KKT条件的要求：

\begin{aligned} (2.18) & {\begin{cases} α_{i} \geq 0, r_{i} \geq 0 \\ g_{i} (w, b) = - [y^{(i)} (w^{T} x^{(i)} + b) - 1 + ξ_{i}] \leq 0 \\ h_{i} (ξ) = - ξ_{i} \leq 0 \\ α_{i} g_{i} (w, b) = 0 \\ r_{i} h_{i} (ξ) = 0 \end{cases} \end{aligned}

于是，对于任意训练样本 $(x^{(i)}, y^{(i)})$ ,总有 $α_{i} = 0$ 或 $g_{i} (w, b) = 0$ 。

若 $α_{i} = 0$ ，该样本点则不会对决策平面产生任何影响；
若 $0 < α_{i} < C$ ，由 $(2.14)$ 知，则同时必有 $g_{i} (w, b) = 0$ 即 $y^{(i)} (w^{T} x^{(i)} + b) = 1 - ξ_{i}$ 且 $r_{i} > 0$ ，进而有 $ξ_{i} = 0$ ，所以该样本恰在最大边界上，即支持向量（下图点a,b,c）；
若 $α_{i} = C$ ，由 $(2.14)$ 知，则必有 $r_{i} = 0$ ，由 $(2.18)$ 知，进而有 $ξ_{i} > 0$ ;同时：若 $0 < ξ_{i} \leq 1$ ,则该样本点落在最大间隔内（下图点d），若 $ξ_{i} > 1$ ，则样本点被错误分类（下图点e，此时其函数距离<0）

SVM——（六）软间隔目标函数求解
黑色虚线表示硬间隔，红色虚线表示软间隔

事实上上面的几种情况可以总结成下面的3个条件：

\begin{aligned} (2.19) & α_{i} = 0 ⟹ y^{(i)} (w^{T} x^{(i)} + b) \geq 1 \\ (2.20) & α_{i} = C ⟹ y^{(i)} (w^{T} x^{(i)} + b) \leq 1 \\ (2.21) & 0 < α_{i} < C ⟹ y^{(i)} (w^{T} x^{(i)} + b) 1 \end{aligned}

3.求解参数

不论是前面说到的硬间还是现在的软间隔，最后都要最大化 $W (α)$ 来求得 $α_{i}$ ，进而解得 $w, b$ 。所以前面做了这么多工作，也只差这最后一步了。那么如何来进行求解呢？

不难发现只是一个二次规划问题，可以使用通用的二次规划算法来求解；然而，该问题的规模正比于训练样本数，这会在实际任务中造成很大的开销。为了避免这个障碍，人们通过利用问题本身的特性，提出了很多高效的算法，SMO(Sequential Minimal Optimization)是其中一个著名的代表。

不过为了避免一篇博客内容过于冗长，我并不打算继续在这篇博客中写下去。下一篇咱接着说。

SVM——（七）SMO（序列最小最优算法）
SVM——（六）软间隔目标函数求解
 SVM——（五）线性不可分之核函数
 SVM——（四）目标函数求解
 SVM——（三）对偶性和KKT条件（Lagrange duality and KKT condition）
SVM——（二）线性可分之目标函数推导方法2
SVM——（一）线性可分之目标函数推导方法1

参考：

Andrew Ng. CS229. Note3
《统计学习方法》李航
《机器学习》周志华