线性可分支持向量机学习笔记分享

线性可分支持向量机与硬间间隔最大化

线性可分向量机

对于一个给定特征空间的数据集
$T=\{(x_1,y_1),(x_2,y_2),...(x_N,y_N)\}$
其中 $x_i\in R^n,y_i\in \{+1,-1\},i=1,2....,N,x_i$ 为第i个特征向量，也称为实例， $y_i$ 为 $x_i$ 的类标记，当 $y_i$ =+1时称 $x_i$ 为正例；当 $y_i=-1$ 时，称 $x_i$ 为负例， $（x_i,y_i）$ 称为样本点。

如果训练数据集是可分的，则通过间隔最大化得到的分离超平面为
$w^T+b=0$
以及相对应的决策函数
$f(x)=sign(w^T\cdot x_i+b)$
该决策函数称为线性可分向量机

函数间隔和几何间隔

因为一个点距离分离超平面的远近可以表示分类预测的确信程度，而在超平面确定的情况下 $|w^T\cdot x_i+b|$ 能够相对的表示点x距离超平面的远近，且如果分类正确,则 $y_i$ =+1>0时， $w^T\cdot x_i+b$ >0。 $y=-1<0$ 时， $w^T\cdot x_i+b$ <0，即类标记的符号与 $w^T\cdot x_i+b$ 的符号是否一致可表示分类是否正确，所以可用 $y_i（w^T\cdot x_i+b)$ 表示分类的正确性，这就是函数间隔

函数间隔存在一个弊端，如果我们把w和b成比例的放大的话，超平面并没有变化，但是函数间隔却成比例的增大了，所以我们对w施加了一个约束，将w和b都除以||w||,则函数间隔便成为了几何间隔

所以对于给定的训练数据集T和超平面(w,b)，定义超平面(w,b)关于样本点 $(x_i,y_i)$ 的几何间隔为
$y_i=y_i(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||})$
定义超平面(w,b)关于训练数据集T的几何间隔为超平面关于T中所有样本点 $(x_，y_i)$ 的几何间隔的最小值，即
$y=min y_i(i=1,....N)$

间隔最大化

上面提到一个点距离分离超平面的远近可以表示分类预测的确信程度，即间隔越大，分类的确信程度越大

所以间隔最大化的直观解释为：对训练集数据找到间隔最大的超平面意味着以充分大的确信程度对训练集进行分类。即不仅将正负例分开，而且将最难分的实例点（即距离超平面最近的点）也有足够的确信度将其分开，这样的超平面应该对未知的新实例有很好的分类预测能力

最大间隔分离超平面的求解

1.构造并求解约束最优化问题
$minw,b\frac{1}{2}||w||^2$

$s.t\ y_i(w\cdot x_i+b)>=0,\ i=1,2....,N$

求得最优解 $w^*,b^*$

2.由此得出超平面：
$w^*x+b^*=0$
分类决策函数：
$f(x)=sign(w^*x+b)$

支持向量和间隔边界

在线性可分情况下，支持向量就是训练数据集距离分离超平面最近的样本点的实例

支持向量使得约束条件式等号成立，即：
$y_i(w\cdot x_i+b)-1=0$
对于 $y_i=+1$ 的实例点
$w\cdot x_i+b=1$
对于 $y_i=-1$ 的实例点
$w\cdot x_i+b=-1$
线性可分支持向量机学习笔记分享

如上图，中间即为分离超平面，右上方和左下方的两条线分别对应 $w\cdot x_i+b=1$ 和 $w\cdot x_i+b=-1$ ,它们被称为间隔边界

它们之间的距离即为称为间隔，间隔依赖于分离平面的法向量w，等于 $\frac{2}{||w||}$

在决定分离超平面时只有支持向量起作用，而其他实例点不起作用。

在决定分离超平面时只有支持向量起作用，而其他实例点不起作用。
由于这部分涉及数学较多，所以学的比较慢
学习中，敬请指教