参考周老师《机器学习》

在前面两章里,我们都是假设样本在原始空间或者高维空间里线性可分,并且我们提到核函数的选择成为SVM的关键。即使我们找到了合适的核函数,也难断定是否是因过拟合造成的。

引入软间隔,允许一些样本不满足约束条件。在前面两章所介绍的都是硬间隔,即所有样本都必须满足约束条件。


支持向量机(SVM)第三章---软间隔

优化目标为:
min12||w||2+Ci=1nl0/1(yi(wTxi+b)1)
其中C>0是一个常数,l0/1是”0-1损失函数“。

  • z<0l0/1(z)=1
  • z0,l0/1=0

然而l0/1是非凸、非连续的,因此需要一些“替代损失”,它们是凸的连续的且是l0/1的上界。比如:hinge损失、指数损失、对率损失


支持向量机(SVM)第三章---软间隔

用hinge损失代替优化目标里的0-1损失:
min12||w||2+Ci=1nmax(0,(yi(wTxi+b)1))

引入松弛变量ξi0,又可进一步重写为:
min12||w||2+Ci=1nξi
s.t.yi(wTxi+b)1ξi
ξi0,i=1,2,...,n

通过拉格朗日乘子法可以得到对应的拉格朗日函数:
L(w,b,ξ)=12||w||2+Ci=1nξi+i=1nβi(ξi)+i=1nαi(1ξiyi(wTxi+b))
其中αi0,βi0是拉格朗日乘子
Lw=wi=1nαiyixi=0
w=i=1nαiyixi
Lb=i=1nαiyi=0
i=1nαiyi=0
Lξi=Cβiαi=0
C=βi+αi

带入上面的拉格朗日函数便得到软间隔支持向量机的对偶问题:


支持向量机(SVM)第三章---软间隔

软间隔支持向量机的KKT条件:

  • Lw=0,Lb=0,Lξi=0
  • ξi0,1ξiyi(wTxi+b)0
  • αi0,βi0
  • αi(1ξiyi(wTxi+b))=0,βi(ξi)=0

最终的模型仍是:
f(x)=wTx+b=i=1nαiyixiTx+b

根据KKT可知:
αi=0对应的样本不对f(x)产生影响;当αi>0时,此时对应的样本是支持向量,如果αi<C,根据C=αi+βi,可知βi>0,那么ξi=0,则该样本在最大间隔边界上;如果αi=C,那么βi=0,如果ξi1,则样本落在最大间隔内部,若ξi>1,则样本被错误分类。

软间隔支持向量机的最终模型同样只与支持向量有关,通过hinge损失函数保持了解的稀疏性。

相关文章:

  • 2022-01-20
  • 2021-06-05
  • 2019-07-01
  • 2019-01-15
  • 2021-05-12
  • 2021-06-24
  • 2021-07-17
  • 2021-12-12
猜你喜欢
  • 2021-10-24
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-06-24
  • 2021-09-10
  • 2021-12-18
相关资源
相似解决方案