前文链接

软间隔

合页损失函数

线性支持向量机还有另一种解释,最小化目标函数
i=1N[1yi(wxi+b)]++λw2 \sum_{i=1}^N[1-y_i(w\cdot x_i+b)]_++\lambda\lVert w\rVert^2
其中函数
L(y(xx+b))=[1y(wx+b)]+ L(y(x\cdot x+b))=[1-y(w\cdot x+b)]_+
称为合页损失函数(hinge loss function),符号++表示取函数的正部. 这种损失函数表示只有当样本点(xi,yi)(x_i, y_i)被正确分类且函数间隔yi(wxi+b)y_i\cdot(w\cdot x_i+b)大于1时,损失为0,否则损失为1yi(wxi+b)1-y_i\cdot(w\cdot x_i+b)

定理
线性支持向量机原始最优化问题
minw,b,ξ12w2+Ci=1Nξis.t.{yi(wxi+b)1ξi,i=1,2,,Nξi0,i=1,2,,N(1) \min_{w, b, \xi}\frac{1}{2}\lVert w\rVert^2+C\sum_{i=1}^N\xi_i\\ s.t.\begin{cases} y_i(w\cdot x_i+b)\geq 1-\xi_i, i=1,2, \dots, N\\ \xi_i\geq 0, i=1, 2, \dots, N \end{cases}\tag{1}
等价于最优化问题
minw,bi=1N[1yi(wxi+b)]++λw2(2) \min_{w, b}\sum_{i=1}^N[1-y_i(w\cdot x_i+b)]_++\lambda\lVert w\rVert^2\tag{2}
证明
可以将最优化问题(2)(2)转化为(1)(1). 令
[1yi(wxi+b)]=ξi [1-y_i(w\cdot x_i+b)]=\xi_i
所以有ξi0\xi_i\geq 0成立,又因为当1yi(wxi+b)>01-y_i(w\cdot x_i+b)>0时,1yi(wxi+b)=ξi1-y_i(w\cdot x_i+b)=\xi_i,当1yi(wxi+b)01-y_i(w\cdot x_i+b)\leq 0时,ξi=0\xi_i=0,所以yi(wxi+b)1ξiy_i(w\cdot x_i+b)\geq 1-\xi_i. 即最优化问题可以写成
minw,bi=1Nξi+λw2 \min_{w,b}\sum_{i=1}^N\xi_i+\lambda\lVert w\rVert^2
λ=12C\lambda=\frac{1}{2C}
minw,b1C(12w2+Ci=1Nξi) \min_{w, b}\frac{1}{C}\bigg(\frac{1}{2}\lVert w\rVert^2+C\sum_{i=1}^N\xi_i\bigg)
与模型(1)(1)等价.
合页损失函数和0-1损失函数图像如下
【ML】SVM(4) 合页损失函数可以发现合页损失函数时0-1损失函数的上界,并且由于0-1损失函数不是连续可导的,直接优化目标函数比较困难,可以考虑优化损失函数的上界,这时上界损失函数又被称为代理损失函数(surrogate loss function).

虚线部分时感知机损失函数
[yi(wxi+b)]+ [-y_i(w\cdot x_i+b)]_+
相比较而言,合页损失函数不仅要求分类正确,还要求一定的函数间隔,损失才能达到0,是一种要求更高的损失函数.

参考资料

统计学习方法 清华大学出版社 李航

相关文章: