前文链接
软间隔
合页损失函数
线性支持向量机还有另一种解释,最小化目标函数
i=1∑N[1−yi(w⋅xi+b)]++λ∥w∥2
其中函数
L(y(x⋅x+b))=[1−y(w⋅x+b)]+
称为合页损失函数(hinge loss function),符号+表示取函数的正部. 这种损失函数表示只有当样本点(xi,yi)被正确分类且函数间隔yi⋅(w⋅xi+b)大于1时,损失为0,否则损失为1−yi⋅(w⋅xi+b)
定理:
线性支持向量机原始最优化问题
w,b,ξmin21∥w∥2+Ci=1∑Nξis.t.{yi(w⋅xi+b)≥1−ξi,i=1,2,…,Nξi≥0,i=1,2,…,N(1)
等价于最优化问题
w,bmini=1∑N[1−yi(w⋅xi+b)]++λ∥w∥2(2)
证明:
可以将最优化问题(2)转化为(1). 令
[1−yi(w⋅xi+b)]=ξi
所以有ξi≥0成立,又因为当1−yi(w⋅xi+b)>0时,1−yi(w⋅xi+b)=ξi,当1−yi(w⋅xi+b)≤0时,ξi=0,所以yi(w⋅xi+b)≥1−ξi. 即最优化问题可以写成
w,bmini=1∑Nξi+λ∥w∥2
令λ=2C1
w,bminC1(21∥w∥2+Ci=1∑Nξi)
与模型(1)等价.
合页损失函数和0-1损失函数图像如下
可以发现合页损失函数时0-1损失函数的上界,并且由于0-1损失函数不是连续可导的,直接优化目标函数比较困难,可以考虑优化损失函数的上界,这时上界损失函数又被称为代理损失函数(surrogate loss function).
虚线部分时感知机损失函数
[−yi(w⋅xi+b)]+
相比较而言,合页损失函数不仅要求分类正确,还要求一定的函数间隔,损失才能达到0,是一种要求更高的损失函数.
参考资料
统计学习方法 清华大学出版社 李航