线性支持向量机与软间隔最大化
一、线性可分SVM的问题
【1】
现实中数据往往是线性不可分的。

即使可分,也会因异常点(蓝色的)影响模型的泛化效果。
不考虑蓝色异常点,分类超平面为橙色。加入蓝色点。分离超平面为黑色。这样会严重影响模型的预测效果。

二、线性SVM与软间隔最大化
线性不可分意味着某些样本点不能满足函数间隔大于等于1。
软间隔是相对于硬间隔而言的,对此我们放松了函数间隔的要求,之前是一定要大于等于1,现在只需要加上一个大于等于0的松弛变量能大于1就行。
对每一个样本(xi,yi)引入一个松弛变量ξi≥0。约束条件变为
yi(w⋅xi+b)+ξi≥1
松弛变量的引入是需要付出代价的,也就是说我们要惩罚那些误分类的点。
线性SVM(包括了线性可分和线性不可分)的原始问题如下
minw,b,ξ12||w||2+C∑i=1nξi(1)
s.t.yi(w⋅xi+b)≥1−ξi,i=1,2,..n(2)
ξi≥0,i=1,2,...n(3)
目标函数尽量小,即间隔尽量大 ,同时误分类点的个数尽量小,C>0是调和二者的系数。
三、对偶算法
根据上篇对偶算法的一般步骤有
公式繁琐,有机会再重敲ヽ(`Д´)ノ︵ ┻━┻ ┻━┻

由此我们得到了线性SVM的对偶问题
maxα−12∑i=1n∑j=1nαiαjyiyj(xi⋅xj)+∑i=1nαi(4)
s.t.∑i=1nαiyi=0(5)
0≤αi≤C,i=1,2,...n(6)
与线性可分SVM的对偶问题对比,只多了αi≤C。
4. 线性支持向量机的KKT条件
解的偏导=0
∇wL(w∗,b∗,ξ∗,α∗,μ∗)=w∗−∑i=1nα∗iyixi=0
∇bL(w∗,b∗,ξ∗,α∗,μ∗)=−∑i=1nα∗iyi=0
∇ξL(w∗,b∗,ξ∗,α∗,μ∗)=C−α∗−μ∗=0
解满足不等式约束,
yi(w∗⋅xi+b∗)−1+ξ∗≥0
ξ∗≥0
拉格朗日乘子大于0
α∗i≥0
μ∗i≥0
对偶互补:拉格朗日乘子大于0时,解的不等式约束的等号成立
α∗i(yi(w∗⋅xi+b∗)−1+ξ∗i)=0
μ∗iξ∗i=0,i=1,2,...n
由第一个偏导得到
w∗=∑iα∗iyixi(7)
参数b是根据对偶互补条件得到的。
若存在0<α∗j<C,由C−αj−μj=0知μj≠0。
互补条件2得,ξj=0
带到互补条件1,yj(w∗⋅xj+b∗)−1=0
b∗=yj−∑i=1nα∗iyi(xi⋅xj)(8)
w∗,b∗与线性可分SVM对比
【2】p101 线性可分SVM,w,b是唯一的
【2】p109 线性SVM,可以证明w的解是唯一的,但b的解是不唯一的,b的解存在于一个区间。
在计算的时候,b可以取所有符合条件的样本的平均值。
四、支持向量
由公式(7)(8)知,w∗,b∗只依赖于训练数据集中α∗>0的样本点(称这样的点为支持向量),而其他样本点对w∗,b∗没有影响。这和线性可分SVM定义的支持向量是一致的。
线性可分SVM中的支持向量在间隔边界上
线性SVM的支持向量可以在
间隔边界上,间隔边界与超平面之间,分离超平面误分一侧

1.若0<α∗i<C,上面已经推了一遍了,ξi=0,松弛变量为0,支持向量在间隔边界上
2.若α∗i=C
- 0<ξ∗i<1,分类正确,样本在间隔边界与分类超平面之间
- ξ∗i=1,样本在分离超平面上
- ξ∗i>1,样本在分离超平面误分一侧
五、合页损失函数(hinge loss)
线性SVM的另一种解释
最小化合页损失函数
∑i=1n[1−yi(w⋅xi+b)]++λ||w||2(9)
其中[z]+为取正值函数
[z]+={z,0,z>0z≤0
目标函数表示第一项当样本点被正确分类且函数间隔(确信度)yi(w⋅xi+b)大于1时,损失是0。
否则,损失是1−yi(w⋅xi+b),第二项表示正则化项。
感知机的损失函数是[−yi(w⋅xi+b)]+,当样本点被正确分类时,损失是0。
否则,损失是−yi(w⋅xi+b)。
合页损失函数不仅要求分类正确,而且确信度足够高时损失才是0。
0-1 损失函数,是可以用于二分类问题的损失函数,分类正确,损失是0;否则,损失是1。
【1】

横坐标表示函数间隔,纵坐标表示损失。
其他的损失函数???先挖个坑
下面证明最小化合页损失函数(公式9)和软间隔最大化(线性SVM的原始问题公式1-3)是等价的
令
[1−yi(w⋅xi+b)]+=ξi
取正值函数知,ξi≥0,公式3成立;
[1−yi(w⋅xi+b)]+={1−yi(w⋅xi+b),0,1−yi(w⋅xi+b)>01−yi(w⋅xi+b)≤0
当1−yi(w⋅xi+b)>0, yi(w⋅xi+b)=1−ξi
当1−yi(w⋅xi+b)≤0, ξi=0,1−yi(w⋅xi+b)≤ξi
因此公式2成立;
公式9改写为
minw,b∑i=1nξi+λ||w||2
取λ=12C
minw,b1C(12||w||2+C∑i=1nξi)
公式1成立。
参考文献
【1】http://www.cnblogs.com/pinard/p/6100722.html
【2】统计学习方法