OWL-QN算法
上一篇介绍的L-BFGS只能解平滑问题,但是对于非平滑问题比如机器学习中常见的带L1正则的问题就解决不了,因此微软提出一种基于L-BFGS的优化算法OWL-QN算法,QWL-QN算法最大的特点是可以解非平滑问题,并且收敛速度比L-BFGS要快。
算法思想与伪梯度
算法具体的思想是,把目标函数投影到各个象限上,然后在各个象限上单独求解,并且限制象限,这样比如说L1正则项如果投影并且限制在某个象限上就成了线性函数,是可以求导的,而且损失函数的一阶和l1是相关的,但是二阶不相关,因此近似hessian逆矩阵的求解和lbfgs一样,而对于一阶导数,论文引入了一个概念,叫伪梯度如下
其中
从上可以看出
线性搜索
线性搜索需要保证开始的限制条件,就是更新后的不能越过象限,论文中给出了一个backtracking line search方法如下:
总结
从上面可以看出,其实owl-qn和lbfgs算法不同有两点,一个是伪梯度代替梯度,第二是线性搜索方法改变,其他的包括求解步骤都不变,下面是论文中给出的具体算法