机器学习技法笔记-线性支持向量机

回顾线性分类

前提：样本线性可分
线性分类器： $h(x)=sign({ w }^{ T }x)$
寻找线性分类器的算法：PLA/pocket
Q：若样本线性可分，那么可以将样本完美分类的直线(超平面)边界通常(肯定)不止一条，哪一条才是最好的呢？
A：边界离样本点的最小距离越大越好
机器学习技法笔记-线性支持向量机
直觉告诉我们上图中显然第三个线性分类器最好，非要解释呢？
图一中，假设我们有一个样本与靠近分界线的那个x非常接近，但是它在分界线的下侧，由于是它被分类为o，这显然不太合理。而图三中，因为各个样本点都离分类界线有一定的距离，输入数据稍微有点误差，只要误差不是太大是偏不到界线的那一边的。可见图三对数据中的误差容忍度最高。

Large-Margin Separating Hyperplane

问题模型：
$最大化 \quad margin(w)$
$满足约束 \quad 以W为系数的超平面能将所有样本点正确分类即y_{n}=sign(w^{T}x_{n})，即y_{n}w^{T}x_{n}>0$
$margin=样本点到分类超平面距离的最小值即min\quad distance(x_{n},w)$
写清爽点:
$object: maximize \quad margin(w)$
$s.t.:\quad every \quad y_{n}w^{T}x_{n}>0$
$margin(w)=min \quad distance(w_{n},w)$

样本点到超平面的距离公式

因为在此问题中W和b用途有不同，不再把b写成 $w_{0}$
于是要找的超平面就是 $W^{T}X+b=0$
$distance(x,b,w)=\frac { 1 }{ \left\| w \right\| } \left| { w }^{ T }x+b \right|$
代入前述模型
$object: maximize \quad margin(w)$
$s.t.:\quad every \quad y_{n}w^{T}x_{n}>0$
$margin(w)=min \quad \frac { 1 }{ \left\| w \right\| } \left| { w }^{ T }x+b \right|$
依然无法求解

Margin of Special Separating Hyperplane

我们知道 $w^{T}x+b=0$ 和 $3w^{T}x+3b=0$ 其实是同一个平面
对于任意一个平面 $w^{T}x+b=0$
假设到该平面距离最小的样本点为 $x_{i}$
且 $\left| { w }^{ T }x_{i}+b \right|=L$
即 ${ y }_{ n }({ w }^{ T }{ x }_{ n }+b)=L$
两边同时乘以 $1/L$
得 ${ y }_{ n }(\frac { { w }^{ T } }{ { d }_{ i } } { x }_{ n }+\frac { b }{ { d }_{ i } } )=1$
事实上 $\frac { { w }^{ T } }{ { d }_{ i } } { x }_{ n }+\frac { b }{ { d }_{ i } }=0$ 与 $w^{T}x+b=0$ 是同一个平面
因此，任意一个平面，经过系数的缩放，可以使得到平面距离最小的样本点满足
$y_{i}(w^{T}x_{i}+b)=0$
我们接下来便只考虑这些special的平面(考虑了这些special的平面就是考虑了所有的平面）
$margin(w)=\frac { 1 }{ \left\| w \right\| }$
于是问题模型就可以写得更清爽了：
$object: maximize \quad \frac { 1 }{ \left\| w \right\| }$
$s.t.:\quad min \quad y_{n}(w^{T}x_{n}+b)=1$

Standard Large-Margin Hyperplane Problem

将约束条件 $min \quad y_{n}(w^{T}x_{n}+b)=1$ 放松为 $y_{n}(w^{T}x_{n}+b)\ge1$
(目标仍然是 $maximize \quad \frac { 1 }{ \left\| w \right\| }$ )
这二者不是等价的，后者是前者的必要条件，因为后者并不要求存在一个 $x_{i}$ 能取到等号
但是，后者所对应最优化问题的最优解却一定是前者的最优解，证明如下：
假设后者最优解为 $(b,w)$ ,其中最小的 $y_{n}(w^{T}x_{n}+b)=M>1$ ，
将系数除以M，得到一个更优解 $(\frac { w }{ M } ,\frac { b }{ M } )$ ，产生了矛盾
也就是说，在约束条件 $y_{n}(w^{T}x_{n}+b)\ge1$ 下求出的最优解一定会满足 $min \quad y_{n}(w^{T}x_{n}+b)=1$

最后再对最优化问题模型做一些等价变形：最大化变成最小化，去掉求模时的根号
问题模型转化成：
$\underset { b,w }{ min } \quad \frac { 1 }{ 2 } { w }^{ T }w$
$s.t.\quad { y }_{ n }({ w }^{ T }{ x }_{ n }+b)\ge 1\quad for\quad all\quad n\quad$

Quadratic Programming

经过一系列推导，问题模型实际上转化成了一个二次规划模型。
二次规划模型：
1.目标函数是一个二次函数
2.约束全都是线性的

支持向量机 Support Vector Machine (SVM)

实际上，最后求得的超平面只与离它最近的几个样本有关，这些样本点称为支持向量