一、原理讲解

1、支持向量机最简单的情况是线性可分支持向量机,或硬间隔支持向量机。构建它的条件是训练数据线性可分,其学习策略是最大间隔法。可以表示为凸二次规划问题,其原始最优化问题为

minw,b12w2\min _{w, b} \frac{1}{2}\|w\|^{2}s.t.yi(wxi+b)10,i=1,2,,Ns.t. \quad y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N

求得最优化问题的解为ww^*bb^*,得到线性可分支持向量机,分离超平面是

wx+b=0w^{*} \cdot x+b^{*}=0

最大间隔法中,函数间隔与几何间隔是重要的概念。
线性可分支持向量机的最优解存在且唯一。位于间隔边界上的实例点为支持向量。最优分离超平面由支持向量完全决定。 二次规划问题的对偶问题是min12i=1Nj=1Nαiαjyiyj(xixj)i=1Nαi\min \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}

s.t.i=1Nαiyi=0s.t. \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0αi0,i=1,2,,N\alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N
通常,通过求解对偶问题学习线性可分支持向量机,即首先求解对偶问题的最优值

aa^*,然后求最优值ww^*bb^*,得出分离超平面和分类决策函数。

2、现实中训练数据是线性可分的情形较少,训练数据往往是近似线性可分的,这时使用线性支持向量机,或软间隔支持向量机。线性支持向量机是最基本的支持向量机。

对于噪声或例外,通过引入松弛变量ξi\xi_{\mathrm{i}},使其“可分”,得到线性支持向量机学习的凸二次规划问题,其原始最优化问题是

minw,b,ξ12w2+Ci=1Nξi\min _{w, b, \xi} \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}s.t.yi(wxi+b)1ξi,i=1,2,,Ns.t. \quad y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, Nξi0,i=1,2,,N\xi_{i} \geqslant 0, \quad i=1,2, \cdots, N
求解原始最优化问题的解ww^*bb^*,得到线性支持向量机,其分离超平面为

wx+b=0w^{*} \cdot x+b^{*}=0
分类决策函数为

f(x)=sign(wx+b)f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right)
线性可分支持向量机的解ww^*唯一但bb^*不唯一对偶问题是

minα12i=1Nj=1Nαiαjyiyj(xixj)i=1Nαi\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}s.t.i=1Nαiyi=0s.t. \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=00αiC,i=1,2,,N0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N
线性支持向量机的对偶学习算法,首先求解对偶问题得到最优解α\alpha^*,然后求原始问题最优解ww^*bb^*,得出分离超平面和分类决策函数。

对偶问题的解α\alpha^*中满KaTeX parse error: Expected 'EOF', got '&' at position 15: \alpha_{i}^{*}&̲gt;0的实例点xix_i称为支持向量。支持向量可在间隔边界上,也可在间隔边界与分离超平面之间,或者在分离超平面误分一侧,最优分离超平面由支持向量完全决定。

线性支持向量机学习等价于最小化二阶范数正则化的合页函数

i=1N[1yi(wxi+b)]++λw2\sum_{i=1}^{N}\left[1-y_{i}\left(w \cdot x_{i}+b\right)\right]_{+}+\lambda\|w\|^{2}

3.非线性支持向量机

对于输入空间中的非线性分类问题,可以通过非线性变换将它转化为某个高维特征空间中的线性分类问题,在高维特征空间中学习线性支持向量机。由于在线性支持向量机学习的对偶问题里,目标函数和分类决策函数都只涉及实例与实例之间的内积,所以不需要显式地指定非线性变换,而是用核函数来替换当中的内积。核函数表示,通过一个非线性转换后的两个实例间的内积。具体地,K(x,z)K(x,z)是一个核函数,或正定核,意味着存在一个从输入空间x到特征空间的映射XH\mathcal{X} \rightarrow \mathcal{H},对任意X\mathcal{X},有

K(x,z)=ϕ(x)ϕ(z)K(x, z)=\phi(x) \cdot \phi(z)
对称函数K(x,z)K(x,z)为正定核的充要条件如下:对任意xiX,i=1,2,,m\mathrm{x}_{\mathrm{i}} \in \mathcal{X}, \quad \mathrm{i}=1,2, \ldots, \mathrm{m},任意正整数mm,对称函数K(x,z)K(x,z)对应的Gram矩阵是半正定的。

所以,在线性支持向量机学习的对偶问题中,用核函数K(x,z)K(x,z)替代内积,求解得到的就是非线性支持向量机

f(x)=sign(i=1NαiyiK(x,xi)+b)f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} K\left(x, x_{i}\right)+b^{*}\right)

函数间隔:label(wTx+b) or yi(wTx+b)label(w^Tx+b)\ or\ y_i(w^Tx+b)

几何间隔:r=label(wTx+b)w2r=\frac{label(w^Tx+b)}{||w||_2},当数据被正确分类时,几何间隔就是点到超平面的距离

为了求几何间隔最大,SVM基本问题可以转化为求解:(rw\frac{r^*}{||w||}为几何间隔,(r{r^*}为函数间隔)

max rw\max\ \frac{r^*}{||w||}(subject to) yi(wTxi+b)r, i=1,2,..,m(subject\ to)\ y_i({w^T}x_i+{b})\geq {r^*},\ i=1,2,..,m
分类点几何间隔最大,同时被正确分类。但这个方程并非凸函数求解,所以要先①将方程转化为凸函数,②用拉格朗日乘子法和KKT条件求解对偶问题。

①转化为凸函数:

先令r=1{r^*}=1,方便计算(参照衡量,不影响评价结果)

max 1w\max\ \frac{1}{||w||}s.t. yi(wTxi+b)1, i=1,2,..,ms.t.\ y_i({w^T}x_i+{b})\geq {1},\ i=1,2,..,m
再将max 1w\max\ \frac{1}{||w||}转化成min 12w2\min\ \frac{1}{2}||w||^2求解凸函数,1/2是为了求导之后方便计算。

min 12w2\min\ \frac{1}{2}||w||^2s.t. yi(wTxi+b)1, i=1,2,..,ms.t.\ y_i(w^Tx_i+b)\geq 1,\ i=1,2,..,m
②用拉格朗日乘子法和KKT条件求解最优值:

min 12w2\min\ \frac{1}{2}||w||^2s.t. yi(wTxi+b)+10, i=1,2,..,ms.t.\ -y_i(w^Tx_i+b)+1\leq 0,\ i=1,2,..,m
整合成:

L(w,b,α)=12w2+i=1mαi(yi(wTxi+b)+1)L(w, b, \alpha) = \frac{1}{2}||w||^2+\sum^m_{i=1}\alpha_i(-y_i(w^Tx_i+b)+1)
推导:min f(x)=minmax L(w,b,α)maxmin L(w,b,α)\min\ f(x)=\min \max\ L(w, b, \alpha)\geq \max \min\ L(w, b, \alpha)

根据KKT条件:

wL(w,b,α)=wαiyixi=0, w=αiyixi\frac{\partial }{\partial w}L(w, b, \alpha)=w-\sum\alpha_iy_ix_i=0,\ w=\sum\alpha_iy_ix_ibL(w,b,α)=αiyi=0\frac{\partial }{\partial b}L(w, b, \alpha)=\sum\alpha_iy_i=0
代入$ L(w, b, \alpha)$

min L(w,b,α)=12w2+i=1mαi(yi(wTxi+b)+1)\min\ L(w, b, \alpha)=\frac{1}{2}||w||^2+\sum^m_{i=1}\alpha_i(-y_i(w^Tx_i+b)+1)

=12wTwi=1mαiyiwTxibi=1mαiyi+i=1mαi\qquad\qquad\qquad=\frac{1}{2}w^Tw-\sum^m_{i=1}\alpha_iy_iw^Tx_i-b\sum^m_{i=1}\alpha_iy_i+\sum^m_{i=1}\alpha_i

=12wTαiyixii=1mαiyiwTxi+i=1mαi\qquad\qquad\qquad=\frac{1}{2}w^T\sum\alpha_iy_ix_i-\sum^m_{i=1}\alpha_iy_iw^Tx_i+\sum^m_{i=1}\alpha_i

=i=1mαi12i=1mαiyiwTxi\qquad\qquad\qquad=\sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i=1}\alpha_iy_iw^Tx_i

=i=1mαi12i,j=1mαiαjyiyj(xixj)\qquad\qquad\qquad=\sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i,j=1}\alpha_i\alpha_jy_iy_j(x_ix_j)

再把max问题转成min问题:

max i=1mαi12i,j=1mαiαjyiyj(xixj)=min12i,j=1mαiαjyiyj(xixj)i=1mαi\max\ \sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i,j=1}\alpha_i\alpha_jy_iy_j(x_ix_j)=\min \frac{1}{2}\sum^m_{i,j=1}\alpha_i\alpha_jy_iy_j(x_ix_j)-\sum^m_{i=1}\alpha_i

s.t. i=1mαiyi=0,s.t.\ \sum^m_{i=1}\alpha_iy_i=0,

αi0,i=1,2,...,m\alpha_i \geq 0,i=1,2,...,m

以上为SVM对偶问题的对偶形式

kernel
在低维空间计算获得高维空间的计算结果,也就是说计算结果满足高维(满足高维,才能说明高维下线性可分)。

soft margin & slack variable
引入松弛变量ξ0\xi\geq0,对应数据点允许偏离的functional margin 的量。

目标函数:

min 12w2+Cξis.t. yi(wTxi+b)1ξi\min\ \frac{1}{2}||w||^2+C\sum\xi_i\qquad s.t.\ y_i(w^Tx_i+b)\geq1-\xi_i
对偶问题:

max i=1mαi12i,j=1mαiαjyiyj(xixj)=min12i,j=1mαiαjyiyj(xixj)i=1mαi\max\ \sum^m_{i=1}\alpha_i-\frac{1}{2}\sum^m_{i,j=1}\alpha_i\alpha_jy_iy_j(x_ix_j)=\min \frac{1}{2}\sum^m_{i,j=1}\alpha_i\alpha_jy_iy_j(x_ix_j)-\sum^m_{i=1}\alpha_is.t. Cαi0,i=1,2,...,mi=1mαiyi=0,s.t.\ C\geq\alpha_i \geq 0,i=1,2,...,m\quad \sum^m_{i=1}\alpha_iy_i=0,
Sequential Minimal Optimization
首先定义特征到结果的输出函数:u=wTx+bu=w^Tx+b.

因为w=αiyixiw=\sum\alpha_iy_ix_i

u=yiαiK(xi,x)bu=\sum y_i\alpha_iK(x_i, x)-b

KaTeX parse error: Expected 'EOF', got '&' at position 84: …i\alpha_jy_iy_j&̲lt;\phi(x_i)^T,…s.t. i=1mαiyi=0,s.t.\ \sum^m_{i=1}\alpha_iy_i=0,αi0,i=1,2,...,m \alpha_i \geq 0,i=1,2,...,m

二、在Unscrambler中的操作

讲了这么多,下面开始举个具体案例吧。有AcDiSol、DiCaP、Kollidon和MCC4类物质,一共66个样本,每个样本对应光谱数据如下:

突破线性分类的瓶颈——支持向量机(SVM)
现在,我们要用支持向量机(SVM)来对它们进行分类。

1、点击task-analyze-SVM,输入选择spectra,分类选择class

突破线性分类的瓶颈——支持向量机(SVM)
2、 Weight为每个变量的加权,可以选择归一化或不归一化

突破线性分类的瓶颈——支持向量机(SVM)

3、Validation为交叉验证选项

突破线性分类的瓶颈——支持向量机(SVM)

4、Options为参数设置,可以设置SVM方式、核函数拟合,核函数我们选择线性

突破线性分类的瓶颈——支持向量机(SVM)

5、最后我们看结果,发现分类效果准确率为100%

突破线性分类的瓶颈——支持向量机(SVM)

相关文章: