如前文SVM算法的正则化损失函数视角中提及的,SVM可以理解为“广义线性损失函数+L2正则化”在损失函数为Hinge Loss下特例。即minNλw2+N1i=1∑Nerr(yi,g(wxi))式中g(wx)为线性函数。
本质上,SVM算法是基于二分类的最大软间隔分类算法,那如何将其推广到回归问题中呢?
有如下两种常见思路,其原则都是修改上述损失函数,使其适用于回归问题。
一、核岭回归(kernel ridge regression)
在线性回归(一)基础理论曾介绍过岭回归(即L2正则化的线性回归):
minNλw2+N1i=1∑N(yi−wxi)2又考虑到对于这种“广义线性损失函数+L2正则化”,线性参数w可以写成样本特征向量线性组合的形式,即:w∗=j=1∑Nβjxj将其代入岭回归目标函数,同时引入核技巧,可得βminNλi=1∑Nj=1∑NβiβjK(xi,xj)+N1i=1∑N(yi−j=1∑NβjK(xi,xj))2写成向量形式,为:βminNλβTKβ+N1(βTKTKβ−2βTKTy+yTy)上式对β求导,令其等于0,则可得极值点:∇β=Nλ2KTβ+N1(2KTKβ−2KTy)=N2KT((λI+K)β−y)=0因为核函数矩阵K为半正定阵(因为Kij=ϕ(xi)∗ϕ(yi)),而λ<0,因此λI+K必为正定阵,即可逆。所以β存在解析的最优解:β∗=(λI+K)−1y本质上,核岭回归就是通过核技巧,将原始特征映射到高维非线性空间,再进行线性回归的过程。
从数学表达上,核岭回归通过将软间隔SVM目标函数的损失函数改写为MSE,因此也叫做最小回归SVM(least-squares SVM, 简称LSSVM).
采用LSSVM的一种缺点在于其目标参数β的密集性。因为MSE对所有的预测值(只要预测值不等于真实值)都进行残差平方级的惩罚。所以,近乎所有的样本点都可视为支持向量,那么拉格朗日乘子β即非0。所以其计算量很大,而在标准的SVM算法中,参数α是具备稀疏性的(即支持向量点占少数)。

那么,有没有方法能够在进行做到像LSSVM一样解决回归问题,同时参数有具有稀疏性呢?答案同样是修改合适的损失函数。
二、Tube regression
从“广义线性损失函数+L2正则化”的视角来观察标准的SVM目标函数:minNλw2+N1i=1∑Nmax(0,1−yi(wxi+b))通过构造Hinge损失函数,通过仅对yi(wxi+b)≤1的样本点(即既非支持向量点,又非正确分类且间隔足够大的的那些点)进行惩罚。这是参数α具有稀疏性的本质原因。
因此,可以在回归问题中,也构造具备类似性质的损失函数来取得类似的效果。定义tube损失函数:err(y,y^)=max(0,∣y−y^∣−ϵ),ϵ>0其中超参数ϵ可理解为对预测值偏差的容忍程度,在ϵ范围内可以不对误差值进行惩罚。当ϵ=0时,tube损失退化为MSE损失。从间隔的角度来看,tube损失相当于设置了一个单边宽度为ϵ的margin,margin外的误差才进行惩罚。

因此,在tube损失下的回归问题目标函数可写为:minNλw2+N1i=1∑Nmax(0,∣y−(wx+b)∣−ϵ)虽然表达为“广义线性损失函数+L2正则化”的形式,优化目标无约束,但其不可微,并不方便求解。仿照在标准SVM问题中,“广义线性损失函数+L2正则化”与广义拉格朗日对偶问题的相互转化,可以尝试将其变为更易求解的二次规划问题。
注意到与标准SVM中惩罚项1−y(wx+b)不一样,这里的损失函数存在绝对值,因此需要同时对y−(wx+b)设置上界约束条件和下界约束函数,即写成:w,b,ϵ−,ϵ+mins.t.21w2+Ci=1∑N(ϵi++ϵi−)−ϵ−ϵ+≤yi−wxi−b≤ϵ+ϵ+ϵ+≥0,ϵ−≥0上式中,ϵ为预设的超参数,而ϵ+,ϵ−分别为在ϵ基础上对上界约束和下界约束的进一步松弛。当然也能将两者合并进行统一表达。
类比于标准SVM中,将其表述为拉格朗日函数的极大极小问题,进而转化为对偶问题。通过求解拉格朗日乘子的二次规划问题,以及对偶补充条件,可以求得所有的参数,从而得到回归问题的解。