数学基础（二）：凸优化基础（仿射集，凸集，凸优化问题）

凸优化基础

数学基础系列博客是自己在学习了稀牛学院&网易云课堂联合举办的《人工智能数学基础》微专业后的课程笔记总结。怀着对授课讲师Jason博士无限的敬佩与感激之情，我在完整听了两遍课程之后，对这门进行了笔记整理。Jason博士用深入浅出的方式把数学知识真的是讲透彻了，我的笔记显然无法完整传达Jason博士的精彩授课内容，在此非常推荐每一个打算进入或了解AI的同学去学习这门课程！

一：一般优化问题

1.1 无约束优化问题

自变量为矢量的函数 $f: \mathbf{R}^n\rightarrow \mathbf{R}$ :
$minf(\mathbf{x})\quad \mathbf{x} \in \mathbf{R}^n$
求解方法有两种：（均求得局部最优解，不一定是全局最优解，因为不知道函数的形状）

直接法求解。令 $\nabla f(\mathbf{x})=0$ ,求得驻点，如果有必要，则再根据Hessian矩阵的正定性判断驻点的性质（局部极大、局部极小、鞍点）
迭代法求解
- 梯度下降法（ $d_k=-g_k)$ ,每次下降的方向为负梯度方向。
- 牛顿法（ $d_k=-H_k^{-1}g_k$ ),考虑泰勒级数中的二阶项。
- 拟牛顿法（避免求Hessian矩阵的逆，使用另一个矩阵 $S_k$ 近似)
  - DFP
  - BFGS
  - 两者的区别在于 $S_k$ 的不同。

1.2 有约束优化问题

约束优化问题的一般形式：

$minmize\quad f_0(\mathbf{x})\\ subject\ to\ f_i(\mathbf{x})\le0 \quad for\ i = 1,2,...m\\ \quad \quad \quad \quad h_i(\mathbf{x}) = 0\quad for\ i=1,2,...p$

可行域：满足 $f(\mathbf{x})$ 定义域和约束条件的 $\mathbf{x}$ 的集合。
举例：下图中虚线为等高线
$\text{minimize} \quad f(\mathrm{x})=x_{1}^{2}+x_{2}^{2}-4 x_{1}+4=\left(x_{1}-2\right)^{2}+x_{2}^{2}\\ \text{subject to} \quad c_{1}(\mathrm{x})=x_{1}-2 x_{2}+6 \geq 0\\ \qquad \qquad \qquad c_{2}(\mathrm{x})=-x_{1}^{2}+x_{2}-1 \geq 0, \\\quad c_{3}(\mathrm{x})=x_{1} \geq 0, \\\quad c_{4}(\mathrm{x})=x_{2} \geq 0$

数学基础（二）：凸优化基础（仿射集，凸集，凸优化问题）

1.3 补充知识 $\mathbf{Ax=b}$

矩阵乘法
$\underbrace{\left[ \begin{array}{cc}{2} & {-1} \\ {1} & {1}\end{array}\right]}_{\mathbf{A} \in \mathbb{R}^{2 \times 2}} \underbrace{\left[ \begin{array}{l}{x} \\ {y}\end{array}\right]}_{\mathbf{x} \in \mathbb{R}^{2}}=\underbrace{\left[ \begin{array}{l}{1} \\ {5}\end{array}\right]}_{\mathbf{b} \in \mathbb{R}^{2}}$

$\underbrace{\left[ \begin{array}{ccc}{2} & {1} & {1} \\ {4} & {-6} & {0} \\ {-2} & {7} & {2}\end{array}\right]}_{\mathbf{A} \in \mathbb{R}^{3 \times 3}} \underbrace{\left[ \begin{array}{l}{u} \\ {v} \\ {w}\end{array}\right]}_{\mathbf{x} \in \mathbb{R}^{3}}=\underbrace{\left[ \begin{array}{c}{5} \\ {-2} \\ {9}\end{array}\right]}_{\mathbf{b} \in \mathbb{R}^{3}}$

行视图- 超平面
$\begin{aligned} 2 x-y &=1 \\ x+y &=5 \end{aligned}$

对于 $\mathbf{Ax=b}$ ，从行视图的角度，可以理解为多个超平面的交集。所谓超平面，在二维空间中指直线，在三维空间中指平面。在更高维空间中，不可以可视化，但可以类比理解为 $y = \mathbf{w^Tx}+b$ 的平面。

二：凸集和凸函数

2.1 凸集

2.1.1 凸集和仿射集

仿射集：集合中任意两点间的直线也在集合中，那么该集合称为仿射集。例如 $\mathbf{x}=\theta\mathbf{x_1}+(1-\theta)\mathbf{x_2}\in C,\quad (C\in \mathbf{R}^n,\theta \in R)$ .
$\mathbf{Ax=b}$ 的解的集合为仿射集。 $\mathbf{Ax}=\mathbf{A}(\theta\mathbf{x_1}+(1-\theta)\mathbf{x_2})=\theta \mathbf{Ax_1}+(1-\theta) \mathbf{Ax_2}=\theta b+(1-\theta)b=b$ .

如果 $\mathbf{x_1}$ 和 $\mathbf{x_2}$ 都为方程组的解，那么 $\mathbf{x_1}$ 和 $\mathbf{x_2}$ 连接组成的直线是的任意一点 $\mathbf{x}$ 也是方程组的解。所以解的集合就是 $\mathbf{x}$ ,是一个仿射集。

数学基础（二）：凸优化基础（仿射集，凸集，凸优化问题）

凸集：集合中任意两点间的线段也在集合中，那么该集合称为凸集。例如:对于 $\mathbf{x_1,x_2}\in C$ ,有 $\mathbf{x}=\theta\mathbf{x_1}+(1-\theta)\mathbf{x_2}\in C,\quad (C\in \mathbf{R}^n,\theta \in [0,1])$ .
一个集合是仿射集，但不一定是凸集；一个集合如果是凸集，那么一定是仿射集。

2.1.2 常见的凸集

part1

所有的 $\mathbf{R}^n$ ，既是凸集又是仿射集。
所有的 $\mathbf{R}^n_+$ ,只是凸集，因为是半空间。
超平面： $C=\{\mathbf{x|a^Tx}=b\}$ ,既是仿射集又是凸集。
半空间： $C=\{\mathbf{x|a^Tx}\ge b\}$ 或者 $C=\{\mathbf{x|a^Tx}\le b\}$ 。

part2

首先补充向量范数的知识：

2-norm:
$\|\mathbf{x}\|_{2}=\sqrt{\sum_{i=1}^{n}\left|x_{i}\right|^{2}}=\left(\mathbf{x}^{T} \mathbf{x}\right)^{1 / 2}$
1-norm:（绝对值相加）
$\|\mathbf{x}\|_{1}=\sum_{i=1}^{n}\left|x_{i}\right|$
$\infty$ -norm:（绝对值最大的那个数的值）
$\|\mathbf{x}\|_{\infty}=\max _{i=1, \ldots, n}\left|x_{i}\right|$
p-norm( $p \ge1)$ :
$\|\mathbf{x}\|_{p}=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{\frac{1}{p}}$

注意p一定要大于等于1

范数球：例如 $||\mathbf{x}||_2 \le1$ .给定任意的 $\mathbf{x,y}\in \mathbf{R}^n$ ,且 $||\mathbf{x}||_2 \le1,||\mathbf{y}||_2 \le1$ ,则有 $|||\theta\mathbf{x}+(1-\theta)\mathbf{y}||_2 \le \theta||\mathbf{x}||_2+(1-\theta)||\mathbf{y}||_2 \le1$ .所以二范数围成的集合是凸集。
在二维情形下，
- $||\mathbf{x}||_1 \le1\rightarrow |x|+|y| \le 1$ ;
- $||\mathbf{x}||_2 \le1\rightarrow x^2+y^2 \le1$ ;
- $||\mathbf{x}||_{\infty} \le1\rightarrow |x|\le1 \ and \ |y| \le 1$
当 $p \ge1$ 时，范数球组成的集合是凸集。

part3

凸集的性质：凸集的交集是凸集，例如： $S=\{||\mathbf{x}||_2 \le1,x \ge 0\}$ , $||\mathbf{x}||_2 \le1$ 是范数球，凸集； $x \ge0$ 是半空间，凸集；凸集的交集还是凸集。所以 $S$ 是凸集。

证明：假定 $S_{1}, \cdots, S_{k}$ 是凸集，给定 $\mathbf{x}, \mathbf{y} \in \bigcap_{i=1}^{k} S_{i}$ （即x和y都是交集中的点），则有：

$\theta \mathrm{x}+(1-\theta) \mathrm{y} \in S_{i}, \quad i=1, \cdots, k$ ，因为每一个集合都是凸集，所以连接任意两点的线段都在每一个集合内，因此也就在所有集合的交集内。即： $\theta \mathbf{x}+(1-\theta) \mathbf{y} \in \cap_{i=1}^{k} S_{i}$ ，因此凸集的交集还是凸集。
凸集的并集不一定是凸集。
多面体：有限个半空间和半平面的交集
$\mathcal{P}=\{\mathrm{x} | \mathrm{Ax} \leq \mathrm{b}, \mathrm{Cx}=\mathrm{d}\}$

原因分析：对于 $\mathrm{Ax} \leq \mathrm{b}$ ,每一行都是一个半空间（凸集），而 $\mathrm{Ax} \leq \mathrm{b}$ 为多个半空间的交集，也是凸集；对于 $\mathrm{Cx}=\mathrm{d}$ 每一行都是一个超平面（凸集），多个超平面的交集还是凸集。

2.2 凸函数

2.2.1 凸函数的定义

一个函数 $f:\mathbf{R}^n \rightarrow \mathbf{R}$ 被称为凸函数，如果
- 定义域 $dom(f)$ 为凸集
- 对于任何 $\mathbf{x,y}\in dom(f)$ 和 $0 \le \theta \le1$ ,有
  $f(\theta\mathbf{x}+(1-\theta)\mathbf{y}) \le \theta f(\mathbf{x})+(1-\theta)f(\mathbf{y})$
凸函数的一阶二阶充要条件
- 一阶充要条件（不好用）： $f\left(\mathrm{x}_{1}\right) \geq f(\mathrm{x})+\nabla^{T} f(\mathrm{x})\left(\mathrm{x}_{1}-\mathrm{x}\right)$ 对于所有的 $\mathbf{x_1,x}$ 均成立。
- 二阶充要条件：如果函数二阶可导，则凸函数的充要条件： $\mathbf{H(x)}$ 半正定。

2.2.2 常见的凸函数

一元函数举例：
- $ax+b$ 既凸且凹
- $x^2$ 凸函数（二阶导数大于0）
- $e^{\alpha x}$ 凸函数（二阶导数： $\alpha^2 e^{\alpha x}$ ）
- $-log\ x \ convex \ on \ x>0$ ,二阶导数 $\frac{1}{x^2}$
- $xlogx \ convex \ on \ x>0$ ,二阶导数 $\frac{1}{x}$
二元函数举例
- $f\mathbf{(x) = \mathbf{a^Tx+b}}$ ,既凸且凹。 $\nabla f(\mathbf{x})=\mathbf{a}，\nabla^2f(\mathbf{x}) = \mathbf{0}$ .
- $f\mathbf{(x) =\mathbf{x^TPx+} 2\mathbf{q^Tx+r}}$ , 是凸函数的条件： $\nabla^2f(\mathbf{x}) = 2\mathbf{P}\ge 0$ ,即 $\mathbf{P}$ 为半正定矩阵。
  - $f\mathbf{(x)} =||\mathbf{x}||^2_2=\mathbf{x^Tx}$ ，是凸函数，因为 $\mathbf{P=I}$ 是单位阵。

数学基础（二）：凸优化基础（仿射集，凸集，凸优化问题）

2.2.3 保凸运算

$f(\mathbf{x})$ 凸，则 $f(\mathbf{Ax+b})$ 凸。
- 解释： $\mathbf{Ax+b}$ 为仿射变换，相当于对原始图像进行了‘线性变换+平移’。并不改变函数的凸性。可以参考《通俗理解仿射变换》。
- 举例： $f(x)=x^2$ 是凸函数， $f(2x+1)=(2x+1)^2$ 也是凸函数。
- 这个性质，就可以解释线性回归的损失函数 $||\mathbf{y-Xw}||_2^2$ 是凸函数。
g凸，h凸，扩展的h非递减，则 $f(\mathbf{x})=h(g(\mathbf{x}))$ 凸。例如: $f(x)=\|y-A x\|_{2}^{2}$ 凸， $g(\mathrm{x})=\|\mathrm{y}-\mathrm{Ax}\|_{2}$ ， $h(x)=x^{2}$ 在 $x \ge0$ 部分非递减。
$f_{1}, \cdots, f_{m}$ 凸， $w_{1}, \cdots, w_{m} \geq 0$ ，则 $\sum_{i=1}^{m} w_{i} f_{i}$ 凸，例如： $f(x)=\|y-A x\|_{2}^{2}+\gamma\|x\|_{2}^{2}$ 凸， $\gamma \ge 0$ .简单来讲：就是凸函数的非负线性组合还是凸函数。
逐点最大： $f_{1}, \cdots, f_{m}$ 凸，则 $f(\mathrm{x})=\max \left\{f_{1}(\mathrm{x}), \cdots, f_{m}(\mathrm{x})\right\}$ 凸。 $f(\mathrm{x}, \mathrm{y})$ 对于每个 $\mathrm{y} \in \mathcal{A}$ 凸，则 $\sup _{\mathbf{y} \in \mathcal{A}} f(\mathbf{x}, \mathbf{y})$ 凸。

2.2.4 $\alpha$ 水平集

一元函数 $f$ 的 $\alpha$ 水平集为：
$S_{\alpha}=\{x | f(x) \leq \alpha\}$
则有 $f$ 为凸函数 $\rightarrow S_\alpha$ 对于每个 $\alpha$ 是凸集，反之则不成立。

数学基础（二）：凸优化基础（仿射集，凸集，凸优化问题）

三：凸优化问题

3.1 凸优化问题说明

凸优化问题
$minmize\quad f_0(\mathbf{x})\\ subject\ to\ f_i(\mathbf{x})\le0 \quad for\ i = 1,2,...m\\ \quad \quad \quad \quad h_i(\mathbf{x}) = 0\quad for\ i=1,2,...p$
目标函数是凸函数，可行域是凸集
- 目标函数是凸函数。
- 不等式约束函数必须是凸的。（则0水平集是凸集）
- 等式约束函数必须是仿射的。（类似 $\mathbf{Ax=b}$ ，解为凸集）
凸优化问题的本质：在一个凸集上极小化一个凸函数
$f_{0}\left(\mathrm{x}^{*}\right)=p *$
凸优化问题的局部最优即为全局最优

3.2 典型的凸优化问题

线性规划（Liner Programming;LP)
$minimize \quad \mathbf{c}^{T} \mathbf{x}+d\\ subject\ to\ \mathrm{Gx} \leq \mathrm{h}\\ \qquad \qquad \ \mathrm{Ax}=\mathrm{b}$
- 说明：首先目标函数是仿射函数，既是凸函数也是凹函数（二阶导数为0）。 $\mathrm{Gx} \leq \mathrm{h}$ 是一系列半空间的交集（凸集的交集还是凸集），是凸集； $\mathrm{Ax}=\mathrm{b}$ 是一系列超平面的交集（凸集的交集还是凸集），凸集。所以可行域为凸集。符合在凸集上极小化一个凸函数。
二次规划（Quadratic Programming；QP)（ $\mathbf{P}$ 半正定）
$minimize \frac{1}{2} \mathbf{x}^{T} \mathbf{P} \mathbf{x}+\mathbf{c}^{T} \mathbf{x}+d\\ subject\ to\ \mathbf{Gx} \leq \mathbf{h}\\ \qquad \qquad \ \mathbf{Ax}=\mathbf{b}$
- 说明：目标函数求二阶导可知 $\nabla^2f(\mathbf{x})=\mathbf{P} \ge0$ ，即半正定。所以目标函数是一个凸函数。又因为可行域是凸集，所以符合在凸集上极小化一个凸函数。
QCQP( $\mathbf{P}$ 和 $\mathbf{Q_i}$ 均半正定)：
$minimize \quad \frac{1}{2} \mathbf{x}^{T} \mathbf{P} \mathbf{x}+\mathbf{c}^{T} \mathbf{x}+d\\ subject\ to\qquad \frac{1}{2} \mathbf{x}^{T} \mathbf{Q_i} \mathbf{x}+\mathbf{r_i}^{T} \mathbf{x}+s_i \le0;i=1,2 \cdots m\\ \mathrm{Ax}=\mathrm{b}$
- 说明：目标函数为凸函数；可行域中， $\frac{1}{2} \mathbf{x}^{T} \mathbf{Q_i} \mathbf{x}+\mathbf{r_i}^{T} \mathbf{x}+s_i \le0;i=1,2 \cdots m$ ,可以理解为凸函数的0水平集，还是凸集。

四：普通问题转为凸优化问题（案例演示）

给定下列问题：将其转为标准的凸优化问题
$minimize \ \frac{1}{2}\|\mathbf{w}\|_{2}^{2}+C \sum_{i=1}^{m} \xi_{i}\\ subject \ to \qquad y_{i}\left(\mathbf{w}^{T} \mathbf{x}_{i}+b\right) \geq 1-\xi_{i}, i=1, \cdots, m\\\xi_{i} \geq 0$
其中 $\mathbf{w} \in \mathbb{R}^{n}, \boldsymbol{\xi}=\left[\xi_{1}, \cdots, \xi_{m}\right]^{T} \in \mathbb{R}^{m}, b \in \mathbb{R}$ .定义 $k=m+n+1$ (未知变量的个数)。

说明：未知变量为 $w,b,\xi$ 。 $C,y,x$ 已知。

转换过程

定义变量
$\mathbf{x} \in \mathbf{R}^{k}=\left[ \begin{array}{l}{\mathbf{w}} \\ {\mathbf{\xi}} \\ {b}\end{array}\right]$

$\mathbf{X} \in \mathbb{R}^{m \times n}=\left[ \begin{array}{c}{\mathbf{x}_{1}^{T}} \\ {\vdots} \\{\mathbf{x}_{m}^{T}}\end{array}\right], \mathbf{y} \in \mathbb{R}^{m}=\left[ \begin{array}{c}{y_{1}} \\ {\vdots} \\ {y_{m}}\end{array}\right]$
回归QP问题：
$minimize \frac{1}{2} \mathbf{x}^{T} \mathbf{P} \mathbf{x}+\mathbf{c}^{T} \mathbf{x}+d\\ subject\ to\ \mathbf{Gx} \leq \mathbf{h}\\ \qquad \qquad \ \mathbf{Ax}=\mathbf{b}$
定义
$\mathbf{P} \in \mathbb{R}^{k \times k}=\left[ \begin{array}{lll}{\mathbf{I}} & {0} & {0} \\ {0} & {0} & {0} \\ {0} & {0} & {0}\end{array}\right], \mathbf{c} \in \mathbb{R}^{k}=\left[ \begin{array}{c}{0} \\ {C \cdot \mathbf{1(vector)}} \\ {0}\end{array}\right]$

$\mathbf{G} \in \mathbb{R}^{2 m \times k}=\left[ \begin{array}{ccc}{-\operatorname{diag}(\mathbf{y}) \mathbf{X}} & {-\mathbf{I}} & {-\mathbf{y}} \\ {0} & {-\mathbf{I}} & {0}\end{array}\right], \mathbf{h} \in \mathbb{R}^{2 m}=\left[ \begin{array}{c}\mathbf{-1（vector）} \\ \mathbf{0（vector）}\end{array}\right]$

则
$\frac{1}{2} \mathbf{x}^{T} \mathbf{P} \mathbf{x}= \frac{1}{2} \left[\mathbf{w}^T,\mathbf{\xi}^T, {b}^T\right]\left[ \begin{array}{lll}{\mathbf{I}} & {0} & {0} \\ {0} & {0} & {0} \\ {0} & {0} & {0}\end{array}\right] \left[ \begin{array}{l}{\mathbf{w}} \\ {\mathbf{\xi}} \\ {b}\end{array}\right]=\frac{1}{2} \left[\mathbf{w}^T,\mathbf{\xi}^T, {b}^T\right]\left[ \begin{array}{l}{\mathbf{w}} \\ {0} \\ {0}\end{array}\right]=\frac{1}{2}\|\mathbf{w}\|_{2}^{2}$

$\mathbf{c}^{T} \mathbf{x}=\left[0,C\mathbf{1}^T, {0}\right]\left[ \begin{array}{l}{\mathbf{w}} \\ {\mathbf{\xi}} \\ {b}\end{array}\right]=C \sum_{i=1}^{m} \xi_{i}$

$\mathbf{Gx}=\left[ \begin{array}{ccc}{-\operatorname{diag}(\mathbf{y}) \mathbf{X}} & {-\mathbf{I}} & {-\mathbf{y}} \\ {0} & {-\mathbf{I}} & {0}\end{array}\right]\left[ \begin{array}{l}{\mathbf{w}} \\ {\mathbf{\xi}} \\ {b}\end{array}\right]=\left[ \begin{array}{ccc}{-\operatorname{diag}(\mathbf{y}) \mathbf{Xw}-\mathbf{\xi}-b\mathbf{y}} \\ {-\mathbf{\xi}} \end{array}\right] \\ \le\left[ \begin{array}{c}\mathbf{-1} \\ \mathbf{0}\end{array}\right]\rightarrow \left[ \begin{array}{ccc}{\operatorname{diag}(\mathbf{y}) \mathbf{Xw}+b\mathbf{y}}\ge \mathbf{1-\xi} \\ {\mathbf{\xi}}\ge0 \end{array}\right]\\ \rightarrow y_{i}\left(\mathbf{w}^{T} \mathbf{x}_{i}+b\right) \geq 1-\xi_{i}, i=1, \cdots, m\\\xi_{i} \geq 0$

经过上述推导，可以发现原问题转换为了一个QP问题，是一个凸优化问题。而对于凸优化问题，目前已经有非常成熟的解决办法了。因此，能够将一个问题转换为凸优化问题是最为重要的一步。

凸优化基础

一：一般优化问题

1.1 无约束优化问题

1.2 有约束优化问题

1.3 补充知识 Ax=b\mathbf{Ax=b}Ax=b

二：凸集和凸函数

2.1 凸集

2.1.1 凸集和仿射集

2.1.2 常见的凸集

2.2 凸函数

2.2.1 凸函数的定义

2.2.2 常见的凸函数

2.2.3 保凸运算

2.2.4 α\alphaα水平集

三：凸优化问题

3.1 凸优化问题说明

3.2 典型的凸优化问题

四：普通问题转为凸优化问题（案例演示）

五：参考资料

1.3 补充知识 $\mathbf{Ax=b}$

2.2.4 $\alpha$ 水平集