凸优化简介23 - 爱码网

文章目录

平滑技术(Smoothing Techniques)

平滑技术(Smoothing Techniques)

考虑一个凸且非光滑的目标函数：
$\min\limits_{x\in X}f(x)$
为了解决这个问题，一个比较直接的想法是使用一个凸且光滑的函数 $f_u(x)$ 来近似这个函数。
$\min\limits_{x\in X}f_u(x)$
其中 $f_u$ 是 $L_u$ Lipschitz连续的。
考虑一个简单的例子，函数 $f(x)=|x|$ ，该函数是凸的，但是是非光滑的。其近似的光滑且凸的函数，为：
$f_u(x)=\left\{ \begin{aligned} &\frac{x^2}{2u}, &|x|\leq u,\\ &|x|-\frac{u}{2}, &|x| > u \end{aligned} \right.$
该函数被称为 Huber function。
凸优化简介23
Nesterov平滑方法使用如下的函数近似 $f(x)$ ：
$f_u(x)=\max\limits_{y\in dom f^*}\{x^Ty-f^*(y)-ud(y)\}$ ，其中 $f^*(y)=\max\limits_{x\in dom f}\{x^Ty-f(x)\}$ 。 $d(y)$ 是一个近似函数，并且是强凸且非负的。
针对Nesterov 平滑方法的分析：
设 $f_*=\min\limits_{x\in X}, f_{u,*}=\min\limits_{x\in X}f_u(x)$ ，有 $f_{u,*}\leq f_*$ 。此外，对于任意的 $x_t$ ，有：
$f(x_t)-f_*\leq f(x_t)-f_{u,*}\Leftrightarrow f(x_t)-f_*\leq f(x_t)-f_u(x_t)+f_u(x_t)-f_{u,*}$ 。其中最后一个不等式中， $f(x_t)-f_u(x_t)$ 是近似误差， $f_u(x_t)-f_{u,*}$ 是优化误差。
如果应用投影(projected)梯度下降方法，有：
$f(x_t)-f^*\leq O\left(\frac{\|A\|^2_2D_X^2}{ut}+uD^2_Y\right)$ 。因此，如果想要误差低于一个阈值 $\epsilon$ ，则需要设置 $u=O\left(\frac{\epsilon}{D^2_Y}\right)$ ，并且迭代的次数最多为 $T_{\epsilon}=O\left(\frac{\|A\|^2_2D_X^2}{\epsilon u}\right)=O\left(\frac{\|A\|^2_2D_X^2D_Y^2}{\epsilon^2}\right)$
如果使用加速的梯度下降的方法，有：
$f(x_t)-f^*\leq O\left(\frac{\|A\|^2_2D_X^2}{ut^2}+uD_Y^2\right)$ 。因此，如果想要使得误差低于某个阈值 $\epsilon$ ，则需要设置 $u=O\left(\frac{\epsilon}{D_Y^2}\right)$ ，并且迭代次数不会超过 $T_\epsilon=O\left(\frac{\|A\|_2D_X}{\sqrt{\epsilon u}}\right)=O\left(\frac{\|A\|_2D_XD_Y}{\epsilon}\right)$
Moreau-Yosida平滑方法使用如下函数近似 $f(x)$ ：
$f_u(x)=\min\limits_{y\in dom f}\{f(y)-\frac{1}{2u}\|x-y\|^2_M\}$ ，其中 $u > 0$ 是参数， $M-norm$ 定义为 $\|x\|^2_M=x^TMx$ 。

定理：对于任意的 $u >0$ ，设 $D^2_Y=\max\limits_{y\in Y}d(y)$ ，我们有 $f(x)-uD^2_Y\leq f_u(x)\leq f(x)$

证明：因为 $f_u(x)\leq f_0(x)=f(x)$ ,
$f(x)-uD^2_Y\leq f(x)-ud(y^*)\leq f_u(x)$ ，定理得证。