支持向量机学习笔记

1．支持向量机最简单的情况是线性可分支持向量机，或硬间隔支持向量机。构建它的条件是训练数据线性可分。其学习策略是最大间隔法。可以表示为凸二次规划问题，其原始最优化问题为
$s.t. \quad y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N$

求得最优化问题的解为 $w^*$ ， $b^*$ ，得到线性可分支持向量机，分离超平面是
$w^{*} \cdot x+b^{*}=0$

分类决策函数是
$f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right)$

那么线性可分支持向量机解决的就应该找到是n维空间中的点可以被超平面分割的那个超平面。
引入函数间隔和几何间隔的概念：
margin：

函数间隔： $label(w^Tx+b)\ or\ y_i(w^Tx+b)$

几何间隔： $r=\frac{label(w^Tx+b)}{||w||_2}$ ，当数据被正确分类时，几何间隔就是点到超平面的距离。

直观来看就是解决最大margin的问题：
支持向量机学习笔记这里其实有一个公式困扰了我就是它的几何间隔定义为所有样本点的几何间隔最小值。然后我查阅了一下似乎都没提到这个说明，在我不懈的努力搜索小找到如下参考：
（关于这个的定义我是参考了《Pattern Recognition and Machine Learning 》关于SVM的讲解，这本书是我见过的讲的最细的了）

这个平面到数据集的间隔就是我们一开始直观感受时所需要的那个衡量远近的数值。

从这个意义上来说，其实我们在衡量一个平面到数据集的“远近”时，我们其实只需要看的是到所有的样本点距离中最近的那个。
我的理解就是依据Suport vecter 寻找要优化的w，b的空间，换玖话说就是限定了能正确分类的超平面的选择范围。

所以就可以构造最优化问题：
支持向量机学习笔记这里用几何间隔其实就是把不可优化的函数间隔信念值，用固定的可优化的空间距离来表示，进而是一个标准的优化问题。
然后最后标准的优化问题如下，因为函数间隔并不影响优化问题的解，所以这个也很好理解：
支持向量机学习笔记之后就是熟悉的求解对偶问题：
$\min \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}$
$s.t. \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0$ $\alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N$
时间有限，解法不是很复杂直接贴上：
分类点几何间隔最大，同时被正确分类。但这个方程并非凸函数求解，所以要先①将方程转化为凸函数，②用拉格朗日乘子法和KKT条件求解对偶问题。

①转化为凸函数：

先令 ${r^*}=1$ ，方便计算（参照衡量，不影响评价结果）
$\max\ \frac{1}{||w||}$ $s.t.\ y_i({w^T}x_i+{b})\geq {1},\ i=1,2,..,m$

再将 $\max\ \frac{1}{||w||}$ 转化成 $\min\ \frac{1}{2}||w||^2$ 求解凸函数，1/2是为了求导之后方便计算。
$\min\ \frac{1}{2}||w||^2$ $s.t.\ y_i(w^Tx_i+b)\geq 1,\ i=1,2,..,m$

②用拉格朗日乘子法和KKT条件求解最优值：
$\min\ \frac{1}{2}||w||^2$ $s.t.\ -y_i(w^Tx_i+b)+1\leq 0,\ i=1,2,..,m$

整合成：
$L(w, b, \alpha) = \frac{1}{2}||w||^2+\sum^m_{i=1}\alpha_i(-y_i(w^Tx_i+b)+1)$

推导： $\min\ f(x)=\min \max\ L(w, b, \alpha)\geq \max \min\ L(w, b, \alpha)$

根据KKT条件：
$\frac{\partial }{\partial w}L(w, b, \alpha)=w-\sum\alpha_iy_ix_i=0,\ w=\sum\alpha_iy_ix_i$ $\frac{\partial }{\partial b}L(w, b, \alpha)=\sum\alpha_iy_i=0$

代入$ L(w, b, \alpha)$

$\min\ L(w, b, \alpha)=\frac{1}{2}||w||^2+\sum^m_{i=1}\alpha_i(-y_i(w^Tx_i+b)+1)$

$\qquad\qquad\qquad=\frac{1}{2}w^Tw-\sum^m_{i=1}\alpha_iy_iw^Tx_i-b\sum^m_{i=1}\alpha_iy_i+\sum^m_{i=1}\alpha_i$

$\qquad\qquad\qquad=\frac{1}{2}w^T\sum\alpha_iy_ix_i-\sum^m_{i=1}\alpha_iy_iw^Tx_i+\sum^m_{i=1}\alpha_i$

$\qquad\qquad\qquad=\sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i=1}\alpha_iy_iw^Tx_i$

$\qquad\qquad\qquad=\sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i,j=1}\alpha_i\alpha_jy_iy_j(x_ix_j)$

再把max问题转成min问题：

$\max\ \sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i,j=1}\alpha_i\alpha_jy_iy_j(x_ix_j)=\min \frac{1}{2}\sum^m_{i,j=1}\alpha_i\alpha_jy_iy_j(x_ix_j)-\sum^m_{i=1}\alpha_i$

$s.t.\ \sum^m_{i=1}\alpha_iy_i=0,$

$ \alpha_i \geq 0,i=1,2,…,m$

以上为SVM对偶问题的对偶形式

对偶问题求解，这个帖子里非常详细
现实中训练数据是线性可分的情形较少，训练数据往往是近似线性可分的，这时使用线性支持向量机，或软间隔支持向量机。线性支持向量机是最基本的支持向量机。

对于噪声或例外，通过引入松弛变量 $\xi_{\mathrm{i}}$ ，使其“可分”，得到线性支持向量机学习的凸二次规划问题，其原始最优化问题是
$\min _{w, b, \xi} \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}$ $s.t. \quad y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N$ $\xi_{i} \geqslant 0, \quad i=1,2, \cdots, N$

求解原始最优化问题的解 $w^*$ 和 $b^*$ ，得到线性支持向量机，其分离超平面为
$w^{*} \cdot x+b^{*}=0$

分类决策函数为
$f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right)$

线性可分支持向量机的解 $w^*$ 唯一但 $b^*$ 不唯一。对偶问题是
$\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}$ $s.t. \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0$ $0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N$

线性支持向量机的对偶学习算法，首先求解对偶问题得到最优解 $\alpha^*$ ，然后求原始问题最优解 $w^*$ 和 $b^*$ ，得出分离超平面和分类决策函数。

对偶问题的解 $\alpha^*$ 中满KaTeX parse error: Expected 'EOF', got '&' at position 15: \alpha_{i}^{*}&̲gt;0的实例点 $x_i$ 称为支持向量。支持向量可在间隔边界上，也可在间隔边界与分离超平面之间，或者在分离超平面误分一侧。最优分离超平面由支持向量完全决定。

线性支持向量机学习等价于最小化二阶范数正则化的合页函数
$\sum_{i=1}^{N}\left[1-y_{i}\left(w \cdot x_{i}+b\right)\right]_{+}+\lambda\|w\|^{2}$

，之后是核方法：
$K(x, z)=\phi(x) \cdot \phi(z)$
非线性的情况下利用核将低维映射到高维，使之线性可分。

最后是smo算法，有点吃力，贴上这个大佬的链接。简言之就是利用坐标上升的思想去求解多变量优化？有时间在看看吧，作为外行有点顶不住了
SMO算法详解