支持向量机support vector machines

本文是《统计学习方法》李航著学习笔记。
为了叙述方便，将support vector machines简称SVM。SVM是一种二类分类模型，利用SVM对预测实例点进行分类就是根据决策函数的符号划归正负类，下面论述过程主要是有关SVM的模型学习过程。

通常针对三种情况构建SVM学习模型：
1.）对线性可分数据集，构建硬间隔最大化的线性可分支持向量机
2.）对存在一些特异点的近似线性可分数据集，构建软间隔最大化的线性支持向量机
3.）对非线性可分数据集（只有利用非线性模型才能很好的进行分类），利用核技巧构建非线性支持向量机

SVM的建模过程主要在于利用凸优化的Lagrange对偶形式，对“间隔最大优化模型”的转化。SVM是对感知机模型的改进，感知机的内容参考http://blog.csdn.net/cymy001/article/details/77992416

—————————————————————————
在欧式空间中，点 $(x_{i}, y_{i})$ 到直线 $A x + B y + C = 0$ 的距离 $d$ 为

\frac{| A x_{i} + B y_{i} + C |}{\sqrt{A^{2} + B^{2}}}

参考点到直线的距离

d

的定义，有如下的函数间隔和几何间隔的定义。几何间隔可以看做样本点

(x_{i}, y_{i})

到超平面

w^{T} x + b = 0

的距离，函数间隔可以看做对超平面

w^{T} x + b = 0

的系数进行归一化处理后的点到超平面距离。

函数间隔：
对给定的训练数据集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}$ （其中 $x_{i} \in χ = R^{n} ， y_{i} \in {+ 1, - 1}$ ）和超平面 $w^{T} x + b = 0$ ，定义超平面 $w^{T} x + b = 0$ 关于样本点 $(x_{i}, y_{i})$ 的函数间隔为

{\hat{γ}}_{i} = y_{i} (w^{T} x_{i} + b)

定义超平面

w^{T} x + b = 0

关于训练数据集

T

的函数间隔为超平面

w^{T} x + b = 0

关于

T

中所有样本点

(x_{i}, y_{i})

的函数间隔的最小值

\hat{γ} = min_{i = 1, 2, \dots, N} {\hat{γ}}_{i}

几何间隔：
对给定的训练数据集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}$ （其中 $x_{i} \in χ = R^{n} ， y_{i} \in {+ 1, - 1}$ ）和超平面 $w^{T} x + b = 0$ ，定义超平面 $w^{T} x + b = 0$ 关于样本点 $(x_{i}, y_{i})$ 的几何间隔为

γ_{i} = y_{i} (\frac{w^{T} x_{i}}{| | w | |_{2}} + \frac{b}{| | w | |_{2}})

定义超平面

w^{T} x + b = 0

关于训练数据集

T

的几何间隔为超平面

w^{T} x + b = 0

关于

T

中所有样本点

(x_{i}, y_{i})

的几何间隔的最小值

γ = min_{i = 1, 2, \dots, N} γ_{i}

线性可分支持向量机

定义：给定线性可分训练数据集，通过间隔最大化学习得到分离超平面

(w^{*})^{T} x + b^{*} = 0

称相应的分类决策函数

f (x) = s i g n ((w^{*})^{T} x + b^{*})

为线性可分支持向量机。

区别于感知机模型，SVM模型的基本想法是用“一个点距离分离超平面的远近”表示“分类预测的确信程度”，即学习目标是求一个能正确划分训练数据集，并且几何间隔最大的分离超平面，以充分大的确信度对训练数据进行分类，这里点到分离超平面的距离即用几何间隔度量。

（1.）先考虑SVM的建模和问题转化：
基于以上想法，有如下的SVM学习目标

max_{w, b} min_{i = 1, \dots, N} y_{i} (\frac{w^{T} x_{i}}{| | w | |_{2}} + \frac{b}{| | w | |_{2}})

其等价表述为

\begin{aligned} max_{w, b} γ \\ \begin{array}{rrll} s . t . & y_{i} (\frac{w^{T} x_{i}}{| | w | |_{2}} + \frac{b}{| | w | |_{2}}) \geq γ, & i = 1, 2, \dots, N \end{array} . \end{aligned}

考虑函数间隔和几何间隔的关系，以及函数间隔对距离影响的相对性，如果令

| | w | |_{2} γ = \hat{γ} = 1

，则有

γ = \frac{1}{| | w | |_{2}}

，代入上式就有如下SVM学习优化模型

\begin{aligned} max_{w, b} \frac{1}{| | w | |_{2}} \\ \begin{array}{rrll} s . t . & y_{i} (w^{T} x_{i} + b) \geq 1, & i = 1, 2, \dots, N \end{array} . \end{aligned}

再将目标函数转化成其等价极小化形式

min_{w, b} \frac{1}{2} | | w | |^{2}

，就有线性可分支持向量机的学习优化模型的原始问题

\begin{aligned} min_{w, b} \frac{1}{2} | | w | |^{2} \\ \begin{array}{rrll} s . t . & y_{i} (w^{T} x_{i} + b) \geq 1, & i = 1, 2, \dots, N \end{array} . \end{aligned}

目标函数是二次型，约束条件是线性的，所以原始问题是典型的凸二次规划问题。有关原始问题凸二次规划解的存在唯一性在此不做证明，下面将利用对偶算法将SVM模型转化成更便于求解的对偶问题。
由原始问题可定义Lagrange函数：

L (w, b, α) = \frac{1}{2} | | w | |^{2} - \sum_{i = 1}^{N} α_{i} [y_{i} (w^{T} x_{i} + b) - 1]

这里

α_{i} \geq 0

是和约束条件

y_{i} (w^{T} x_{i} + b) - 1 \geq 0

正负取值相对应的惩罚因子，在训练实例点满足原始问题的约束条件

y_{i} (w^{T} x_{i} + b) - 1 \geq 0

时，通过反证法讨论得

\frac{1}{2} | | w | |^{2} \Leftrightarrow max_{α} L (w, b, α)

所以原始问题等价于

min_{w, b} max_{α} L (w, b, α)

当存在实例点使

y_{i} (w^{T} x_{i} + b) > 1 ， i = 1, 2, \dots, N

时，原始问题与对偶问题的对偶间隙为0，从而可以根据KKT条件，通过“求解对偶问题得到的对偶问题的解”去解原始问题的解，即参数

w, b

。
由于原始问题是广义拉格朗日函数的极小极大问题，故其对偶问题是广义拉格朗日函数的极大极小问题

max_{α} min_{w, b} L (w, b, α)

先求内层函数：

min_{w, b} L (w, b, α) = min_{w, b} \frac{1}{2} | | w | |^{2} - \sum_{i = 1}^{N} α_{i} [y_{i} (w^{T} x_{i} + b) - 1]

由

\nabla_{w} L (w, b, α) = 0, \nabla_{b} L (w, b, α) = 0

得：

w = \sum_{i = 1}^{N} α_{i} y_{i} x_{i}, \sum_{i = 1}^{N} α_{i} y_{i} = 0

代入

L (w, b, α)

可得

min_{w, b} L (w, b, α) = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i}^{T} x_{j}) + \sum_{i = 1}^{N} α_{i}

再考虑外层函数：

max_{α} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i}^{T} x_{j}) + \sum_{i = 1}^{N} α_{i}

需要满足约束

\sum_{i = 1}^{N} α_{i} y_{i} = 0 ， α_{i} \geq 0, i = 1, \dots, N

。将目标函数转化成极小化形式，即得最终要求解的对偶问题

\begin{aligned} min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i}^{T} x_{j}) - \sum_{i = 1}^{N} α_{i} \\ \begin{array}{rrll} s . t . & \sum_{i = 1}^{N} α_{i} y_{i} = 0 ， α_{i} \geq 0, i = 1, \dots, N \end{array} . \end{aligned}

从上式可见，对偶问题的约束条件相比原始问题更易于处理。

（2.）要求模型参数 $w, b$ ，接下来需要考虑的是：
A.如何求解对偶问题，解出 $α_{i}$ ；
B.如何根据 $α_{i}$ 求 $w, b$ 。
对于A.问题，会在三种支持向量机模型都给出之后，进行叙述，即序列最小最优化方法sequential minimal optimization,SMO算法。
对于B.问题，是基于优化问题的一阶最优性必要条件——KKT条件推出的，具体过程如下。
由于最优超平面 $w \neq 0$ ，所以由 $α_{i}$ 与 $w$ 的关系知，必然存在 $j$ ，使 $α_{j}^{*} > 0$ ，又由KKT条件：

\nabla_{w} L (w^{*}, b^{*}, a^{*}) = w^{*} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i} = 0 \nabla_{b} L (w^{*}, b^{*}, a^{*}) = - \sum_{i = 1}^{N} α_{i}^{*} y_{i} = 0 α_{i}^{*} (y_{i} ((w^{*})^{T} x_{i} + b^{*}) - 1) = 0, i = 1, \dots, N y_{i} ((w^{*})^{T} x_{i} + b^{*}) - 1 \geq 0, i = 1, \dots, N α_{i}^{*} \geq 0, i = 1, \dots, N

从上式易解出：

w^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i} ， b^{*} = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i}^{T} x_{j})

从而可得分类决策函数

f (x) = s i g n ((w^{*})^{T} x + b^{*})

。

支持向量：
对应 $α_{i}^{*} > 0$ 的训练实例点 $x_{i} \in R^{n}$ 称为支持向量。由KKT条件知，对于支持向量有 $(w^{*})^{T} x + b^{*} = \pm 1$ 。

—————————————————————————

线性支持向量机

对于给定的线性不可分的训练数据集，由于存在一些特异点，导致约束

y_{i} (\frac{w^{T} x_{i}}{| | w | |_{2}} + \frac{b}{| | w | |_{2}}) \geq γ

不是对每个

i = 1, 2, \dots, N

都满足。也就是说，不是每个

i = 1, 2, \dots, N

都有

y_{i} (w^{T} x_{i} + b) \geq 1

这是，可以引入松弛变量

ξ_{i} \geq 0

，使

y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}

同时，对目标函数增加罚项

\sum_{i = 1}^{N} ξ_{i}

，则对应有如下线性支持向量机优化模型：

\begin{aligned} min_{w, b, ξ} \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{N} ξ_{i} \\ \begin{array}{llll} s . t . & y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}, & i = 1, 2, \dots, N \\ ξ_{i} \geq 0, & i = 1, 2, \dots, N \end{array} . \end{aligned}

上式就是线性支持向量机的原始问题模型。可证明

w

的解唯一，

b

的解不唯一，这是因为任何满足

0 < α_{j}^{*} < C

的

α_{j}

都可以由KKT条件对应求出一个

b^{*}

。
类似线性可分支持向量机的学习过程，可以构建线性支持向量机原始问题的Lagrange函数

L (w, b, ξ, α, μ) = \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{N} ξ_{i} - \sum_{i = 1}^{N} α_{i} (y_{i} (w^{T} x_{i} + b) - 1 + ξ_{i}) - \sum_{i = 1}^{N} μ_{i} ξ_{i}

对偶问题是

max_{α, μ} min_{w, b, ξ} L (w, b, ξ, α, μ)

即

\begin{aligned} min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i}^{T} x_{j}) - \sum_{i = 1}^{N} α_{i} \\ \begin{array}{llll} s . t . & \sum_{i = 1}^{N} α_{i} y_{i} = 0, & i = 1, 2, \dots, N \\ 0 \leq α_{i} \leq C, & i = 1, 2, \dots, N \end{array} . \end{aligned}

至此，就完成了模型的转化工作。

当存在 $α^{*}$ 的某个分量 $0 < α_{j}^{*} < C$ 时，由KKT条件有

\nabla_{w} L (w^{*}, b^{*}, ξ^{*}, α^{*}, μ^{*}) = w^{*} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i} = 0 \nabla_{b} L (w^{*}, b^{*}, ξ^{*}, α^{*}, μ^{*}) = - \sum_{i = 1}^{N} α_{i}^{*} y_{i} = 0 \nabla_{ξ} L (w^{*}, b^{*}, ξ^{*}, α^{*}, μ^{*}) = C - α^{*} - μ^{*} = 0 α_{i}^{*} (y_{i} ((w^{*})^{T} x_{i} + b^{*}) - 1 + ξ_{i}^{*}) = 0, i = 1, \dots, N μ_{i}^{*} ξ_{i}^{*} = 0 y_{i} ((w^{*})^{T} x_{i} + b^{*}) - 1 + ξ_{i}^{*} \geq 0, i = 1, \dots, N ξ_{i}^{*} \geq 0, i = 1, \dots, N α_{i}^{*} \geq 0, i = 1, \dots, N μ_{i}^{*} \geq 0, i = 1, \dots, N

利用以上KKT条件可求得模型参数

w^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i} ， b^{*} = y_{j} - \sum_{i = 1}^{N} y_{i} α_{i}^{*} (x_{i}^{T} x_{j})

从而可得分类决策函数

f (x) = s i g n ((w^{*})^{T} x + b^{*})

。

对于线性支持向量机，实例点到分离超平面的距离为 $\frac{1 - ξ_{i}}{| | w | |_{2}}$ ，支持向量形成的间隔边界与分离超平面的距离为 $\frac{1}{| | w | |_{2}}$ ，所以训练实例点到间隔边界的距离为 $\frac{ξ_{i}}{| | w | |_{2}}$
支持向量机support vector machines

—————————————————————————

非线性支持向量机

对非线性可分数据集（只有利用非线性模型才能很好的进行分类），利用核技巧构建非线性支持向量机，就是使用一个映射变换将输入空间 $χ$ 的数据映射到特征空间，使得数据在特征空间内线性可分或近似线性可分，从而将问题转化为前面讨论的线性可分支持向量机和线性支持向量机的求解。

在线性支持向量机中，对偶问题模型及其分类决策函数涉及到的内积包含“训练实例点 $x_{i}$ 与训练实例点 $x_{j}$ 的内积”，“预测实例点 $x$ 与训练实例点 $x_{i}$ 的内积”。从输入空间 $χ$ 到特征空间存在变换 $ϕ$ ：将输入空间 $χ$ 的内积 $x_{i}^{T} x_{j}, x_{i}^{T} x$ 变换成特征空间的内积 $ϕ (x_{i})^{T} ϕ (x_{j}), ϕ (x_{i})^{T} ϕ (x)$ ，然后在特征空间中学习支持向量机模型。当 $ϕ$ 是非线性函数时，从训练数据集中学习到的含有核函数的支持向量机模型就是非线性分类模型。

基于定义在 $χ \times χ$ 上的对称函数 $K (x, z)$ ，定义满足上述性质的映射

ϕ : x \to K (\cdot, x)

由此可定义线性组合

f (\cdot) = \sum_{i = 1}^{m} α_{i} K (\cdot, x_{i})

所有形如

f (\cdot)

的线性组合形成线性空间

S

。
对于

f, g \in S

，在

S

上定义运算

f * g = \sum_{i = 1}^{m} α_{i} K (\cdot, x_{i}) * \sum_{j = 1}^{l} β_{j} K (\cdot, z_{j}) = \sum_{i = 1}^{m} \sum_{j = 1}^{l} α_{i} β_{j} K (x_{i}, z_{j})

可以验证运算

*

为线性空间

S

内的一种内积运算，再对具有运算

*

的线性空间

S

完备化，可得Hilbert空间

H

，在

H

中可得核函数(通常指“正定核”)的定义

K (\cdot, x) \cdot f = f (x) ， K (\cdot, x) \cdot K (\cdot, z) = K (x, z)

也就是，当存在从

χ

到Hilbert空间

H

的映射

ϕ

，使得

K (x, z) = ϕ (x)^{T} ϕ (z)

K (x, z)

就是

χ \times χ

上的正定核。

可验证，对任意一组 $x_{i} \in χ, i = 1, \dots, m$ ，函数 $K (x, z)$ 形成的Gram矩阵

K = [K (x_{i}, x_{j})]_{m \times m}

是半正定时，

K (x, z)

是正定核。

通常，使用的正定核有多项式核函数 $K (x, z) = (x^{T} z + 1)^{p}$ ；高斯核函数 $K (x, z) = e^{- \frac{| | x - z | |^{2}}{2 σ^{2}}}$ 。

利用核函数可得非线性支持向量机对偶问题的模型

\begin{aligned} min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} K (x_{i}, x_{j}) - \sum_{i = 1}^{N} α_{i} \\ \begin{array}{llll} s . t . & \sum_{i = 1}^{N} α_{i} y_{i} = 0, & i = 1, 2, \dots, N \\ 0 \leq α_{i} \leq C, & i = 1, 2, \dots, N \end{array} . \end{aligned}

对应的分类决策函数为

f (x) = s i g n (\sum_{i = 1}^{N} α_{i}^{*} y_{i} K (x, x_{i}) + y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} K (x_{i}, x_{j}))

。

—————————————————————————

SMO算法

前面提到过，该算法主要是用于求解对偶问题。

首先，给定初始的 $α$ ，检验是否 $α$ 的每个分类都满足KKT条件，如果都满足则得最优解 $α^{*}$ ，如果存在不满足的分离，就选择两个分量作变量，其余分量固定，将原来的对偶问题模型化成二次规划子问题。

然后，利用约束条件可以将二次规划子问题转化成单变量求极值问题。

对于二次规划子问题的两个变量的选择标准：一个是违反KKT条件最严重的一个，另一个是使目标函数有足够下降的。