（十二）支持向量机（Support Vecor Machine）4

支持向量机原理（四）

在SVM的前三篇里，我们优化的目标函数最终都是一个关于 $α$ 向量的函数。而怎么极小化这个函数，求出对应的 $α$ 向量，进而求出分离超平面我们没有讲。本篇就对优化这个关于 $α$ 向量的函数的SMO算法做一个总结。

1. 回顾SVM优化目标函数

我们首先回顾下我们的优化目标函数：

\underset{α}{\underset{⏟}{m i n}} \frac{1}{2} \sum_{i = 1, j = 1}^{m} α_{i} α_{j} y_{i} y_{j} K (x_{i}, x_{j}) - \sum_{i = 1}^{m} α_{i}

s . t . \sum_{i = 1}^{m} α_{i} y_{i} = 0

0 \leq α_{i} \leq C

我们的解要满足的KKT条件的对偶互补条件为：

α_{i}^{*} (y_{i} (w^{T} x_{i} + b) - 1 + ξ_{i}^{*}) = 0

根据这个KKT条件的对偶互补条件，我们有：

α_{i}^{*} = 0 \Rightarrow y_{i} (w^{*} ∙ ϕ (x_{i}) + b) \geq 1

0 < α_{i}^{*} < C \Rightarrow y_{i} (w^{*} ∙ ϕ (x_{i}) + b) = 1

α_{i}^{*} = C \Rightarrow y_{i} (w^{*} ∙ ϕ (x_{i}) + b) \leq 1

由于

w^{*} = \sum_{j = 1}^{m} α_{j}^{*} y_{j} ϕ (x_{j})

,我们令

g (x) = w^{*} ∙ ϕ (x) + b = \sum_{j = 1}^{m} α_{j}^{*} y_{j} K (x, x_{j}) + b^{*}

，则有：

α_{i}^{*} = 0 \Rightarrow y_{i} g (x_{i}) \geq 1

0 < α_{i}^{*} < C \Rightarrow y_{i} g (x_{i}) = 1

α_{i}^{*} = C \Rightarrow y_{i} g (x_{i}) \leq 1

2. SMO算法的基本思想

上面这个优化式子比较复杂，里面有m个变量组成的向量 $α$ 需要在目标函数极小化的时候求出。直接优化时很难的。SMO算法则采用了一种启发式的方法。它每次只优化两个变量，将其他的变量都视为常数。由于 $\sum_{i = 1}^{m} α_{i} y_{i} = 0$ .假如将 $α_{3}, α_{4}, . . ., α_{m}$ 　固定，那么 $α_{1}, α_{2}$ 之间的关系也确定了。这样SMO算法将一个复杂的优化算法转化为一个比较简单的两变量优化问题。
为了后面表示方便，我们定义 $K_{i j} = ϕ (x_{i}) ∙ ϕ (x_{j})$
由于 $α_{3}, α_{4}, . . ., α_{m}$ 都成了常量，所有的常量我们都从目标函数去除，这样我们上一节的目标优化函数变成下式：

\underset{α_{1}, α_{1}}{\underset{⏟}{m i n}} \frac{1}{2} K_{11} α_{1}^{2} + \frac{1}{2} K_{22} α_{2}^{2} + y_{1} y_{2} K_{12} α_{1} α_{2} - (α_{1} + α_{2}) + y_{1} α_{1} \sum_{i = 3}^{m} y_{i} α_{i} K_{i 1} + y_{2} α_{2} \sum_{i = 3}^{m} y_{i} α_{i} K_{i 2}

s . t . α_{1} y_{1} + α_{2} y_{2} = - \sum_{i = 3}^{m} y_{i} α_{i} = ς

0 \leq α_{i} \leq C i = 1, 2

3. SMO算法目标函数的优化

为了求解上面含有这两个变量的目标优化问题，我们首先分析约束条件，所有的 $α_{1}, α_{2}$ 都要满足约束条件，然后在约束条件下求最小。
根据上面的约束条件 $α_{1} y_{1} + α_{2} y_{2} = ς 0 \leq α_{i} \leq C i = 1, 2$ ，又由于 $y_{1}, y_{2}$ 均只能取值1或者-1, 这样 $α_{1}, α_{2}$ 在[0,C]和[0,C]形成的盒子里面，并且两者的关系直线的斜率只能为1或者-1，也就是说 $α_{1}, α_{2}$ 的关系直线平行于[0,C]和[0,C]形成的盒子的对角线，如下图所示：

由于 $α_{1}, α_{2}$ 的关系被限制在盒子里的一条线段上，所以两变量的优化问题实际上仅仅是一个变量的优化问题。不妨我们假设最终是 $α_{2}$ 的优化问题。由于我们采用的是启发式的迭代法，假设我们上一轮迭代得到的解是 $α_{1}^{o l d}, α_{2}^{o l d}$ ，假设沿着约束方向 $α_{2}$ 未经剪辑的解是 $α_{2}^{n e w, u n c}$ .本轮迭代完成后的解为 $α_{1}^{n e w}, α_{2}^{n e w}$
由于 $α_{2}^{n e w}$ 必须满足上图中的线段约束。假设L和H分别是上图中 $α_{2}^{n e w}$ 所在的线段的边界。那么很显然我们有：

L \leq α_{2}^{n e w} \leq H

而对于L和H，我们也有限制条件如果是上面左图中的情况，则

L = m a x (0, α_{2}^{o l d} - α_{1}^{o l d}) H = m i n (C, C + α_{2}^{o l d} - α_{1}^{o l d})

如果是上面右图中的情况，我们有：

L = m a x (0, α_{2}^{o l d} + α_{1}^{o l d} - C) H = m i n (C, α_{2}^{o l d} + α_{1}^{o l d})

也就是说，假如我们通过求导得到的

α_{2}^{n e w, u n c}

，则最终的

α_{2}^{n e w}

应该为：

α_{2}^{n e w} = {\begin{cases} H & α_{2}^{n e w, u n c} > H \\ α_{2}^{n e w, u n c} & L \leq α_{2}^{n e w, u n c} \leq H \\ L & α_{2}^{n e w, u n c} < L \end{cases}

那么如何求出

α_{2}^{n e w, u n c}

呢？很简单，我们只需要将目标函数对

α_{2}

求偏导数即可。首先我们整理下我们的目标函数，为了简化叙述，我们令

E_{i} = g (x_{i}) - y_{i} = \sum_{j = 1}^{m} α_{j}^{*} y_{j} K (x_{i}, x_{j}) + b - y_{i}

其中

g (x)

就是我们在第一节里面的提到的

g (x) = w^{*} ∙ ϕ (x) + b = \sum_{j = 1}^{m} α_{j}^{*} y_{j} K (x, x_{j}) + b^{*}

我们令

v_{i} = \sum_{i = 3}^{m} y_{j} α_{j} K (x_{i}, x_{j}) = g (x_{i}) - \sum_{i = 1}^{2} y_{j} α_{j} K (x_{i}, x_{j}) - b

这样我们的优化目标函数进一步简化为：

W (α_{1}, α_{2}) = \frac{1}{2} K_{11} α_{1}^{2} + \frac{1}{2} K_{22} α_{2}^{2} + y_{1} y_{2} K_{12} α_{1} α_{2} - (α_{1} + α_{2}) + y_{1} α_{1} v_{1} + y_{2} α_{2} v_{2}

由于

α_{1} y_{1} + α_{2} y_{2} = ς

，并且

y_{i}^{2} = 1

，可以得到

α_{1} 用 α_{2}

表达的式子为：

α_{1} = y_{1} (ς - α_{2} y_{2})

将上式带入我们的目标优化函数，就可以消除

α_{1}

,得到仅仅包含

α_{2}

的式子。

W (α_{2}) = \frac{1}{2} K_{11} (ς - α_{2} y_{2})^{2} + \frac{1}{2} K_{22} α_{2}^{2} + y_{2} K_{12} (ς - α_{2} y_{2}) α_{2} - (α_{1} + α_{2}) + (ς - α_{2} y_{2}) v_{1} + y_{2} α_{2} v_{2}

忙了半天，我们终于可以开始求

α_{2}^{n e w, u n c}

了，现在我们开始通过求偏导数来得到

α_{2}^{n e w, u n c}

。

\frac{\partial W}{\partial α_{2}} = K_{11} α_{2} + K_{22} α_{2} - 2 K_{12} α_{2} - K_{11} ς y_{2} + K_{12} ς y_{2} + y_{1} y_{2} - 1 - v_{1} y_{2} + y_{2} v_{2} = 0

整理上式有：

(K_{11} + K_{22} - 2 K_{12}) α_{2} = y_{2} (y_{2} - y_{1} + ς K_{11} - ς K_{12} + v_{1} - v_{2})

= y_{2} (y_{2} - y_{1} + ς K_{11} - ς K_{12} + (g (x_{1}) - \sum_{j = 1}^{2} y_{j} α_{j} K_{1 j} - b) - (g (x_{2}) - \sum_{j = 1}^{2} y_{j} α_{j} K_{2 j} - b))

将

ς = α_{1} y_{1} + α_{2} y_{2}

带入上式，我们有：

(K_{11} + K_{22} - 2 K_{12}) α_{2}^{n e w, u n c} = y_{2} ((K_{11} + K_{22} - 2 K_{12}) α_{2}^{o l d} y_{2} + y_{2} - y_{1} + g (x_{1}) - g (x_{2}))

= (K_{11} + K_{22} - 2 K_{12}) α_{2}^{o l d} + y 2 (E_{1} - E_{2})

我们终于得到了

α_{2}^{n e w, u n c}

的表达式：

α_{2}^{n e w, u n c} = α_{2}^{o l d} + \frac{y 2 (E_{1} - E_{2})}{K_{11} + K_{22} - 2 K_{12}}

利用上面讲到的

α_{2}^{n e w, u n c}

和

α_{2}^{n e w}

的关系式，我们就可以得到我们新的

α_{2}^{n e w}

了。利用

α_{2}^{n e w}

和

α_{1}^{n e w}

的线性关系，我们也可以得到新的

α_{1}^{n e w}

。

4. SMO算法两个变量的选择

SMO算法需要选择合适的两个变量做迭代，其余的变量做常量来进行优化，那么怎么选择这两个变量呢？

4.1 第一个变量的选择

SMO算法称选择第一个变量为外层循环，这个变量需要选择在训练集中违反KKT条件最严重的样本点。对于每个样本点，要满足的KKT条件我们在第一节已经讲到了：

α_{i}^{*} = 0 \Rightarrow y_{i} g (x_{i}) \geq 1

0 < α_{i}^{*} < C \Rightarrow y_{i} g (x_{i}) = 1

α_{i}^{*} = C \Rightarrow y_{i} g (x_{i}) \leq 1

一般来说，我们首先选择违反

0 < α_{i}^{*} < C \Rightarrow y_{i} g (x_{i}) = 1

这个条件的点。如果这些支持向量都满足KKT条件，再选择违反

α_{i}^{*} = 0 \Rightarrow y_{i} g (x_{i}) \geq 1

和

α_{i}^{*} = C \Rightarrow y_{i} g (x_{i}) \leq 1

的点。

4.2 第二个变量的选择

SMO算法称选择第二一个变量为内层循环，假设我们在外层循环已经找到了 $α_{1}$ , 第二个变量 $α_{2}$ 的选择标准是让 $| E 1 - E 2 |$ 有足够大的变化。由于 $α_{1}$ 定了的时候, $E_{1}$ 也确定了，所以要想 $| E 1 - E 2 |$ 最大，只需要在 $E_{1}$ 为正时，选择最小的 $E_{i}$ 作为 $E_{2}$ ，在 $E_{1}$ 为负时，选择最大的 $E_{i}$ 作为 $E_{2}$ ，可以将所有的 $E_{i}$ 保存下来加快迭代。
如果内存循环找到的点不能让目标函数有足够的下降，可以采用遍历支持向量点来做 $α_{2}$ ,直到目标函数有足够的下降，如果所有的支持向量做 $α_{2}$ 都不能让目标函数有足够的下降，可以跳出循环，重新选择 $α_{1}$

4.3 计算阈值b和差值 $E_{i}$

在每次完成两个变量的优化之后，需要重新计算阈值b。当 $0 \leq α_{1}^{n e w} \leq C$ 时，我们有

y_{1} - \sum_{i = 1}^{m} α_{i} y_{i} K_{i 1} - b_{1} = 0

于是新的

b_{1}^{n e w}

为：

b_{1}^{n e w} = y_{1} - \sum_{i = 3}^{m} α_{i} y_{i} K_{i 1} - α_{1}^{n e w} y_{1} K_{11} - α_{2}^{n e w} y_{2} K_{21}

计算出

E_{1}

为：

E_{1} = g (x_{1}) - y_{1} = \sum_{i = 3}^{m} α_{i} y_{i} K_{i 1} + α_{1}^{o l d} y_{1} K_{11} + α_{2}^{o l d} y_{2} K_{21} + b^{o l d} - y_{1}

可以看到上两式都有

y_{1} - \sum_{i = 3}^{m} α_{i} y_{i} K_{i 1}

，因此可以将

b_{1}^{n e w}

用

E_{1}

表示为：

b_{1}^{n e w} = - E_{1} - y_{1} K_{11} (α_{1}^{n e w} - α_{1}^{o l d}) - y_{2} K_{21} (α_{2}^{n e w} - α_{2}^{o l d}) + b^{o l d}

同样的，如果

0 < α_{2}^{n e w} < C

, 那么有：

b_{2}^{n e w} = - E_{2} - y_{1} K_{12} (α_{1}^{n e w} - α_{1}^{o l d}) - y_{2} K_{22} (α_{2}^{n e w} - α_{2}^{o l d}) + b^{o l d}

最终的

b^{n e w}

为：

b^{n e w} = \frac{b_{1}^{n e w} + b_{2}^{n e w}}{2}

得到了

b^{n e w}

我们需要更新

E_{i}

E_{i} = \sum_{S} y_{j} α_{j} K (x_{i}, x_{j}) + b^{n e w} - y_{i}

其中，S是所有支持向量

x_{j}

的集合。

5. SMO算法总结

输入是m个样本 $(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{m}, y_{m}),$ ,其中x为n维特征向量。y为二元输出，值为1，或者-1.精度e。输出是近似解 $α$

取初值 $α^{0} = 0, k = 0$
按照4.1节的方法选择 $α_{1}^{k}$ ,接着按照4.2节的方法选择 $α_{2}^{k}$ ，求出新的 $α_{2}^{n e w, u n c}$ 。
$α_{2}^{n e w, u n c} = α_{2}^{k} + \frac{y_{2} (E_{1} - E_{2})}{K_{11} + K_{22} - 2 K_{12})}$
按照下式求出 $α_{2}^{k + 1}$
$α_{2}^{k + 1} = {\begin{cases} H & α_{2}^{n e w, u n c} > H \\ α_{2}^{n e w, u n c} & L \leq α_{2}^{n e w, u n c} \leq H \\ L & α_{2}^{n e w, u n c} < L \end{cases}$
利用 $α_{2}^{k + 1}$ 和 $α_{1}^{k + 1}$ 的关系求出 $α_{1}^{k + 1}$
按照4.3节的方法计算 $b^{k + 1}$ 和 $E_{i}$
在精度e范围内检查是否满足如下的终止条件：
$\sum_{i = 1}^{m} α_{i} y_{i} = 0$
$0 \leq α_{i} \leq C, i = 1, 2... m$
$α_{i}^{k + 1} = 0 \Rightarrow y_{i} g (x_{i}) \geq 1$
$0 < α_{i}^{k + 1} < C \Rightarrow y_{i} g (x_{i}) = 1$
$α_{i}^{k + 1} = C \Rightarrow y_{i} g (x_{i}) \leq 1$
如果满足则结束，返回 $α^{k + 1}$ ,否则转到步骤2