如前文SVM算法的正则化损失函数视角中提及的,SVM可以理解为“广义线性损失函数+L2正则化”在损失函数为Hinge Loss下特例。即minλNw2+1Ni=1Nerr(yi,g(wxi))\min \frac{\lambda}{N} w^2+\frac{1}{N}\sum_{i=1}^Nerr(y_i,g(wx_i))式中g(wx)g(wx)为线性函数。
本质上,SVM算法是基于二分类的最大软间隔分类算法,那如何将其推广到回归问题中呢?
有如下两种常见思路,其原则都是修改上述损失函数,使其适用于回归问题。

一、核岭回归(kernel ridge regression)

线性回归(一)基础理论曾介绍过岭回归(即L2正则化的线性回归):
minλNw2+1Ni=1N(yiwxi)2\min \frac{\lambda}{N} w^2+\frac{1}{N}\sum_{i=1}^N(y_i-wx_i)^2又考虑到对于这种“广义线性损失函数+L2正则化”,线性参数ww可以写成样本特征向量线性组合的形式,即:w=j=1Nβjxjw^*=\sum_{j=1}^N\beta_jx_j将其代入岭回归目标函数,同时引入核技巧,可得minβλNi=1Nj=1NβiβjK(xi,xj)+1Ni=1N(yij=1NβjK(xi,xj))2\min_\beta\frac{\lambda}{N} \sum_{i=1}^N \sum_{j=1}^N\beta_i\beta_jK(x_i,x_j)+\frac{1}{N}\sum^{N}_{i=1}(y_i-\sum_{j=1}^N\beta_jK(x_i,x_j))^2写成向量形式,为:minβλNβTKβ+1N(βTKTKβ2βTKTy+yTy)\min_{\boldsymbol \beta}\frac{\lambda}{N}\boldsymbol {\beta^TK\beta}+\frac{1}{N}(\boldsymbol{\beta^TK^TK\beta}-2\boldsymbol{\beta^TK^Ty+\boldsymbol{y^Ty}})上式对β\boldsymbol \beta求导,令其等于0,则可得极值点:β=λN2KTβ+1N(2KTKβ2KTy)=2NKT((λI+K)βy)=0\begin{aligned}\nabla_{\boldsymbol \beta}&=\frac{\lambda}{N}\boldsymbol{2K^T\beta}+\frac{1}{N}(2\boldsymbol{K^TK\beta}-2\boldsymbol{K^Ty})\\&=\frac{2}{N}\boldsymbol{K^T}((\boldsymbol{\lambda I+K})\boldsymbol{\beta}-\boldsymbol{y}\boldsymbol{})\\&=0\end{aligned} 因为核函数矩阵K\boldsymbol{K}为半正定阵(因为Kij=ϕ(xi)ϕ(yi)K_{ij}=\phi(x_i)*\phi(y_i)),而λ<0\lambda<0,因此λI+K\boldsymbol{\lambda I+K}必为正定阵,即可逆。所以β\boldsymbol {\beta}存在解析的最优解:β=(λI+K)1y\boldsymbol {\beta}^*=(\boldsymbol{\lambda I+K})^{-1}\boldsymbol{y}本质上,核岭回归就是通过核技巧,将原始特征映射到高维非线性空间,再进行线性回归的过程。
从数学表达上,核岭回归通过将软间隔SVM目标函数的损失函数改写为MSE,因此也叫做最小回归SVM(least-squares SVM, 简称LSSVM).

采用LSSVM的一种缺点在于其目标参数β\beta的密集性。因为MSE对所有的预测值(只要预测值不等于真实值)都进行残差平方级的惩罚。所以,近乎所有的样本点都可视为支持向量,那么拉格朗日乘子β\beta即非0。所以其计算量很大,而在标准的SVM算法中,参数α\alpha是具备稀疏性的(即支持向量点占少数)。
SVM算法(九)将SVM推广到回归问题
那么,有没有方法能够在进行做到像LSSVM一样解决回归问题,同时参数有具有稀疏性呢?答案同样是修改合适的损失函数。

二、Tube regression

从“广义线性损失函数+L2正则化”的视角来观察标准的SVM目标函数:minλNw2+1Ni=1Nmax(0,1yi(wxi+b))\min \frac{\lambda}{N} w^2+\frac{1}{N}\sum_{i=1}^N\max(0,1-y_i(wx_i+b))通过构造Hinge损失函数,通过仅对yi(wxi+b)1y_i(wx_i+b)\le1的样本点(即既非支持向量点,又非正确分类且间隔足够大的的那些点)进行惩罚。这是参数α\alpha具有稀疏性的本质原因。

因此,可以在回归问题中,也构造具备类似性质的损失函数来取得类似的效果。定义tube损失函数:err(y,y^)=max(0,yy^ϵ),ϵ>0err(y,\hat y)=\max(0,|y-\hat y|-\epsilon), \epsilon>0其中超参数ϵ\epsilon可理解为对预测值偏差的容忍程度,在ϵ\epsilon范围内可以不对误差值进行惩罚。当ϵ=0\epsilon=0时,tube损失退化为MSE损失。从间隔的角度来看,tube损失相当于设置了一个单边宽度为ϵ\epsilon的margin,margin外的误差才进行惩罚。
SVM算法(九)将SVM推广到回归问题
因此,在tube损失下的回归问题目标函数可写为:minλNw2+1Ni=1Nmax(0,y(wx+b)ϵ)\min \frac{\lambda}{N} w^2+\frac{1}{N}\sum_{i=1}^N\max(0,|y-(wx+b)|-\epsilon)虽然表达为“广义线性损失函数+L2正则化”的形式,优化目标无约束,但其不可微,并不方便求解。仿照在标准SVM问题中,“广义线性损失函数+L2正则化”与广义拉格朗日对偶问题的相互转化,可以尝试将其变为更易求解的二次规划问题。
注意到与标准SVM中惩罚项1y(wx+b)1-y(wx+b)不一样,这里的损失函数存在绝对值,因此需要同时对y(wx+b)y-(wx+b)设置上界约束条件和下界约束函数,即写成:minw,b,ϵ,ϵ+12w2+Ci=1N(ϵi++ϵi)s.t.ϵϵ+yiwxibϵ+ϵ+ϵ+0,ϵ0\begin{aligned}\min_{w,b,\epsilon^{-},\epsilon^{+}}&\frac{1}{2}w^2+C\sum_{i=1}^N(\epsilon^{+}_i+\epsilon^{-}_i)\\s.t.\quad &-\epsilon-\epsilon^{+}\le y_i-wx_i-b\le\epsilon+\epsilon^{+}\\ & \epsilon^{+}\ge 0, \epsilon^{-}\ge 0\end{aligned}上式中,ϵ\epsilon为预设的超参数,而ϵ+,ϵ\epsilon^{+},\epsilon^{-}分别为在ϵ\epsilon基础上对上界约束和下界约束的进一步松弛。当然也能将两者合并进行统一表达。
类比于标准SVM中,将其表述为拉格朗日函数的极大极小问题,进而转化为对偶问题。通过求解拉格朗日乘子的二次规划问题,以及对偶补充条件,可以求得所有的参数,从而得到回归问题的解。

相关文章: