凸函数优化之对偶理论

预备知识

什么是凸优化？

凸优化需要满足：

1、在最小化（最大化）的要求下；
2、目标函数是一个凸函数（凹函数）；
3、同时约束条件所形成的可行域集合是一个凸集。

凸集

若集合 $C$ 为凸集，则 $C$ 中任意两点间的线段仍然在 $C$ 中，也就是说，对于任意 $x_1, x_2\in C$ ，都有：
$\theta x_1+(1-\theta)x_2\in C$
其中， $0 \leq \theta \leq1$ 。

凸优化问题

凸函数优化之对偶理论

仿射函数

仿射函数，即最高次数为1的多项式函数。常数项为零的仿射函数称为线性函数。

对偶理论

一、原问题转化

对于一般优化问题，如：
$minimize\ \ \ f_{o(x)} \\ s.t. \ \ f_{i(x)}\leq0 \ \ for \ \ i=1,2,……m \\ \ \ \ \ \ \ \ \ h_{i(x)}=0 \ \ for \ \ i=1,2,……p$
则可以将其转化为拉格朗日函数：
$L_{(x, \lambda,v)}=f_{o(x)}+\sum_{i=1}^{m}\lambda_if_{i(x)}+\sum_{i=1}^{p}v_ih_{i(x)}$
其中包含主变量 $x$ 和对偶变量 $\lambda_i\geq0,v_i$ 。
如果想固定 $x$ ，只通过改变 $\lambda$ 和 $v$ 来获得上面函数的最大值，即：
$\mathop{max}\limits_{\lambda,v}L_{(x,\lambda,v)}=f_{o(x)}+\mathop{max}\limits_{\lambda,v}(\sum_{i=1}^{m}\lambda_if_{i(x)}+\sum_{i=1}^{p}v_ih_{i(x)})$
因为 $f_{i(x)}\leq0$ ， $\lambda_i\geq0$ ，且 $h_{i(x)}=0$ ，则：
$\mathop{max}\limits_{\lambda,v}L_{(x,\lambda,v)}=f_{o(x)}$
所以原本在约束条件下要求的 $\mathop{min}\limits_{x} f_{o(x)}$ 可以被转化为求：
$p^{*}=\mathop{min}\limits_{x}(\mathop{max}\limits_{\lambda,v}L_{(x,\lambda,v)})$
而当强对偶条件成立时，这个问题又可以被转化为求：
$d^{*}=\mathop{max}\limits_{\lambda,v}(\mathop{min}\limits_{x}L_{(x,\lambda,v)})$
将 $\mathop{min}\limits_{x}L_{(x,\lambda,v)}$ 称为拉格朗日对偶函数，即拉格朗日函数关于 $x$ 取得的最小值，设：
$g_{(\lambda,v)}=\mathop{min}\limits_{x}L_{(x,\lambda,v)}=\mathop{min}\limits_{x}(f_{o(x)}+\sum_{i=1}^{m}\lambda_if_{i(x)}+\sum_{i=1}^{p}v_ih_{i(x)})$
那么， $g_{(\lambda,v)}$ 是 $(\lambda,v)$ 的仿射函数 $L_{(x,\lambda,v)}$ 的逐点下确界，这一定是个凹函数。凸优化学习(一)为什么lagrangr的下确界必然是一个凹函数
设 $\tilde{x}$ 是原问题的一个可行点，即 $f_{i(x)}\leq0$ 且 $h_{i(x)}=0$ ，根据假设 $\lambda\geq0$ ，有：
$\sum_{i=1}^{m}\lambda_if_{i(\tilde{x})}+\sum_{i=1}^{p}v_ih_{i(\tilde{x})}\leq0$
所以：
$L_{(\tilde{x}, \lambda,v)}=f_{o(\tilde{x})}+\sum_{i=1}^{m}\lambda_if_{i(\tilde{x})}+\sum_{i=1}^{p}v_ih_{i(\tilde{x})}\leq f_{o(\tilde{x})}$
因此
$g_{(\lambda,v)}=\mathop{inf}\limits_{x}L_{(x,\lambda,v)}\leq L_{(\tilde{x},\lambda,v)}\leq f_{o(\tilde{x})}$
其中， $\mathop{inf}\limits_{x}L_{(x,\lambda,v)}$ 是指 $L_{(x,\lambda,v)}$ 的逐点下确界。
也就是说， $d^{*}\leq p^{*}$ 是一定的。
至此，我们已经证明了原问题 $\mathop{min}\limits_{x} f_{o(x)}$ 可以被转化为求 $\mathop{min}\limits_{x}(\mathop{max}\limits_{\lambda,v}L_{(x,\lambda,v)})$ ，且由对偶条件进而被转化为求 $\mathop{max}\limits_{\lambda,v}(\mathop{min}\limits_{x}L_{(x,\lambda,v)})=\mathop{max}\limits_{\lambda,v}g_{(\lambda,v)}$ ，并且 $\mathop{max}\limits_{\lambda,v}g_{(\lambda,v)}$ 是一定小于 $\mathop{min}\limits_{x} f_{o(x)}$ 的。

ps：对偶条件

弱对偶： $d^{*}\leq p^{*}$ ，无论原问题是不是凸优化问题，这个式子总是成立的。
强对偶： $d^{*}=p^{*}$

该条件通常不成立。
对于凸优化问题通常成立。
对于满足 $Slater$ 条件的凸优化问题一定成立。
【注】 $Slater$ 条件是指，对于在预备知识模块给出的凸优化问题的定义中的 $f_{i(x)}$ ，总存在一点 $x$ ，使得 $f_{i(x)}<0$ 在 $i=1,2,……m$ 上均成立。

二、互补松弛性

设原问题和对偶问题的最优解都可以达到且相等（强对偶性成立），令 $x^{*}$ 为原问题的最优解， $(\lambda^{*},v^{*})$ 为对偶问题的最优解，则：
$f_{o(x^{*})}=g_{(\lambda^{*},v^{*})}\\ \quad \quad \quad \quad \ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad=\mathop{inf}\limits_{x}(f_{o(x)}+\sum_{i=1}^{m}\lambda_i^{*}f_{i(x)}+\sum_{i=1}^{p}v_i^{*}h_{i(x)})\\ \quad \quad \quad \quad \ \ \ \quad \quad \quad \quad \quad \quad \quad \quad \leq f_{o(x^{*})}+\sum_{i=1}^{m}\lambda_i^{*}f_{i(x^{*})}+\sum_{i=1}^{p}v_i^{*}h_{i(x^{*})}\\ \ \ \ \ \leq f_{o(x^{*})}$
取等号时，有：
$\lambda_i^{*}f_{i(x^{*})}=0 \quad i=1,2,……m$
此条件称为互补松弛性，也就是KKT条件。

三、凸问题的KKT条件

当原问题是凸问题时，满足KKT条件的点也是原问题和对偶问题的最优解。也就是说，如果函数 $f_{i(x)}$ 为凸函数， $h_{i(x)}$ 为仿射函数， $\tilde{x},\tilde{\lambda},\tilde{v}$ 是任意满足KKT条件的点。即满足：

问题约束：
$f_{i(\tilde{x})}\leq0 \quad i=1,2,……m$
$h_{i(\tilde{x})}=0 \quad i=1,2,……m$
$\tilde{\lambda_i}\geq0 \quad i=1,2,……m$
互补松弛性：
$\tilde{\lambda_i}f_{i(\tilde{x})}=0 \quad i=1,2,……m$
极值条件：
$\bigtriangledown_xL_{(\tilde{x},\tilde{\lambda},\tilde{v})}=\bigtriangledown_xf_{o(\tilde{x})}+\sum_{i=1}^{m}\tilde{\lambda}_i\bigtriangledown_xf_{i(\tilde{x})}+\sum_{i=1}^{p}\tilde{v}_i\bigtriangledown_xh_{i(\tilde{x})}=0$
那么， $\tilde{x}$ 和 $(\tilde{\lambda},\tilde{v})$ 就分别是原问题和对偶问题的最优解，且结果相同。