突破线性分类的瓶颈——支持向量机(SVM)

一、原理讲解

1、支持向量机最简单的情况是线性可分支持向量机，或硬间隔支持向量机。构建它的条件是训练数据线性可分，其学习策略是最大间隔法。可以表示为凸二次规划问题，其原始最优化问题为

$\min _{w, b} \frac{1}{2}\|w\|^{2}$ $s.t. \quad y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N$

求得最优化问题的解为 $w^*$ ， $b^*$ ，得到线性可分支持向量机，分离超平面是

$w^{*} \cdot x+b^{*}=0$

最大间隔法中，函数间隔与几何间隔是重要的概念。
线性可分支持向量机的最优解存在且唯一。位于间隔边界上的实例点为支持向量。最优分离超平面由支持向量完全决定。二次规划问题的对偶问题是 $\min \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}$

$s.t. \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0$ $\alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N$
通常，通过求解对偶问题学习线性可分支持向量机，即首先求解对偶问题的最优值

$a^*$ ，然后求最优值 $w^*$ 和 $b^*$ ，得出分离超平面和分类决策函数。

2、现实中训练数据是线性可分的情形较少，训练数据往往是近似线性可分的，这时使用线性支持向量机，或软间隔支持向量机。线性支持向量机是最基本的支持向量机。

对于噪声或例外，通过引入松弛变量 $\xi_{\mathrm{i}}$ ，使其“可分”，得到线性支持向量机学习的凸二次规划问题，其原始最优化问题是

$\min _{w, b, \xi} \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}$ $s.t. \quad y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N$ $\xi_{i} \geqslant 0, \quad i=1,2, \cdots, N$
求解原始最优化问题的解 $w^*$ 和 $b^*$ ，得到线性支持向量机，其分离超平面为

$w^{*} \cdot x+b^{*}=0$
分类决策函数为

$f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right)$
线性可分支持向量机的解 $w^*$ 唯一但 $b^*$ 不唯一对偶问题是

$\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}$ $s.t. \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0$ $0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N$
线性支持向量机的对偶学习算法，首先求解对偶问题得到最优解 $\alpha^*$ ，然后求原始问题最优解 $w^*$ 和 $b^*$ ，得出分离超平面和分类决策函数。

对偶问题的解 $\alpha^*$ 中满KaTeX parse error: Expected 'EOF', got '&' at position 15: \alpha_{i}^{*}&̲gt;0的实例点 $x_i$ 称为支持向量。支持向量可在间隔边界上，也可在间隔边界与分离超平面之间，或者在分离超平面误分一侧，最优分离超平面由支持向量完全决定。

线性支持向量机学习等价于最小化二阶范数正则化的合页函数

$\sum_{i=1}^{N}\left[1-y_{i}\left(w \cdot x_{i}+b\right)\right]_{+}+\lambda\|w\|^{2}$

3．非线性支持向量机

对于输入空间中的非线性分类问题，可以通过非线性变换将它转化为某个高维特征空间中的线性分类问题，在高维特征空间中学习线性支持向量机。由于在线性支持向量机学习的对偶问题里，目标函数和分类决策函数都只涉及实例与实例之间的内积，所以不需要显式地指定非线性变换，而是用核函数来替换当中的内积。核函数表示，通过一个非线性转换后的两个实例间的内积。具体地， $K(x,z)$ 是一个核函数，或正定核，意味着存在一个从输入空间x到特征空间的映射 $\mathcal{X} \rightarrow \mathcal{H}$ ，对任意 $\mathcal{X}$ ，有

$K(x, z)=\phi(x) \cdot \phi(z)$
对称函数 $K(x,z)$ 为正定核的充要条件如下：对任意 $\mathrm{x}_{\mathrm{i}} \in \mathcal{X}, \quad \mathrm{i}=1,2, \ldots, \mathrm{m}$ ，任意正整数 $m$ ，对称函数 $K(x,z)$ 对应的Gram矩阵是半正定的。

所以，在线性支持向量机学习的对偶问题中，用核函数 $K(x,z)$ 替代内积，求解得到的就是非线性支持向量机

$f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} K\left(x, x_{i}\right)+b^{*}\right)$

函数间隔： $label(w^Tx+b)\ or\ y_i(w^Tx+b)$

几何间隔： $r=\frac{label(w^Tx+b)}{||w||_2}$ ，当数据被正确分类时，几何间隔就是点到超平面的距离

为了求几何间隔最大，SVM基本问题可以转化为求解:( $\frac{r^*}{||w||}$ 为几何间隔，( ${r^*}$ 为函数间隔)

$\max\ \frac{r^*}{||w||}$ $(subject\ to)\ y_i({w^T}x_i+{b})\geq {r^*},\ i=1,2,..,m$
分类点几何间隔最大，同时被正确分类。但这个方程并非凸函数求解，所以要先①将方程转化为凸函数，②用拉格朗日乘子法和KKT条件求解对偶问题。

①转化为凸函数：

先令 ${r^*}=1$ ，方便计算（参照衡量，不影响评价结果）

$\max\ \frac{1}{||w||}$ $s.t.\ y_i({w^T}x_i+{b})\geq {1},\ i=1,2,..,m$
再将 $\max\ \frac{1}{||w||}$ 转化成 $\min\ \frac{1}{2}||w||^2$ 求解凸函数，1/2是为了求导之后方便计算。

$\min\ \frac{1}{2}||w||^2$ $s.t.\ y_i(w^Tx_i+b)\geq 1,\ i=1,2,..,m$
②用拉格朗日乘子法和KKT条件求解最优值：

$\min\ \frac{1}{2}||w||^2$ $s.t.\ -y_i(w^Tx_i+b)+1\leq 0,\ i=1,2,..,m$
整合成：

$L(w, b, \alpha) = \frac{1}{2}||w||^2+\sum^m_{i=1}\alpha_i(-y_i(w^Tx_i+b)+1)$
推导： $\min\ f(x)=\min \max\ L(w, b, \alpha)\geq \max \min\ L(w, b, \alpha)$

根据KKT条件：

$\frac{\partial }{\partial w}L(w, b, \alpha)=w-\sum\alpha_iy_ix_i=0,\ w=\sum\alpha_iy_ix_i$ $\frac{\partial }{\partial b}L(w, b, \alpha)=\sum\alpha_iy_i=0$
代入$ L(w, b, \alpha)$

$\min\ L(w, b, \alpha)=\frac{1}{2}||w||^2+\sum^m_{i=1}\alpha_i(-y_i(w^Tx_i+b)+1)$

$\qquad\qquad\qquad=\frac{1}{2}w^Tw-\sum^m_{i=1}\alpha_iy_iw^Tx_i-b\sum^m_{i=1}\alpha_iy_i+\sum^m_{i=1}\alpha_i$

$\qquad\qquad\qquad=\frac{1}{2}w^T\sum\alpha_iy_ix_i-\sum^m_{i=1}\alpha_iy_iw^Tx_i+\sum^m_{i=1}\alpha_i$

$\qquad\qquad\qquad=\sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i=1}\alpha_iy_iw^Tx_i$

$\qquad\qquad\qquad=\sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i,j=1}\alpha_i\alpha_jy_iy_j(x_ix_j)$

再把max问题转成min问题：

$\max\ \sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i,j=1}\alpha_i\alpha_jy_iy_j(x_ix_j)=\min \frac{1}{2}\sum^m_{i,j=1}\alpha_i\alpha_jy_iy_j(x_ix_j)-\sum^m_{i=1}\alpha_i$

$s.t.\ \sum^m_{i=1}\alpha_iy_i=0,$

$\alpha_i \geq 0,i=1,2,...,m$

以上为SVM对偶问题的对偶形式

kernel
在低维空间计算获得高维空间的计算结果，也就是说计算结果满足高维（满足高维，才能说明高维下线性可分）。

soft margin & slack variable
引入松弛变量 $\xi\geq0$ ，对应数据点允许偏离的functional margin 的量。

目标函数：

$\min\ \frac{1}{2}||w||^2+C\sum\xi_i\qquad s.t.\ y_i(w^Tx_i+b)\geq1-\xi_i$
对偶问题：

$\max\ \sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i,j=1}\alpha_i\alpha_jy_iy_j(x_ix_j)=\min \frac{1}{2}\sum^m_{i,j=1}\alpha_i\alpha_jy_iy_j(x_ix_j)-\sum^m_{i=1}\alpha_i$ $s.t.\ C\geq\alpha_i \geq 0,i=1,2,...,m\quad \sum^m_{i=1}\alpha_iy_i=0,$
Sequential Minimal Optimization
首先定义特征到结果的输出函数： $u=w^Tx+b$ .

因为 $w=\sum\alpha_iy_ix_i$

有 $u=\sum y_i\alpha_iK(x_i, x)-b$

KaTeX parse error: Expected 'EOF', got '&' at position 84: …i\alpha_jy_iy_j&̲lt;\phi(x_i)^T,… $s.t.\ \sum^m_{i=1}\alpha_iy_i=0,$ $\alpha_i \geq 0,i=1,2,...,m$