优化与深度学习
优化与估计
尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同。
- 优化方法目标:训练集损失函数值
- 深度学习目标:测试集损失函数值(泛化性)
优化在深度学习中的挑战
- 局部最小值
- 鞍点
- 梯度消失
局部最小值
f(x)=xcosπx

鞍点

A=⎣⎢⎢⎢⎢⎢⎡∂x12∂2f∂x2∂x1∂2f⋮∂xn∂x1∂2f∂x1∂x2∂2f∂x22∂2f⋮∂xn∂x2∂2f⋯⋯⋱⋯∂x1∂xn∂2f∂x2∂xn∂2f⋮∂xn2∂2f⎦⎥⎥⎥⎥⎥⎤
在一个一阶偏导数为0的点上,若Hessian矩阵的特征值都为正数,则是局部最小值点;都为负数,为局部最大值点;有正有负,为鞍点。
例:下图,在一个方向上是局部最大值点,另一个方向上是局部最小值点。而其显然不是全局最小值,但一阶偏导数又为0,所以是一个鞍点。

梯度消失
函数值平稳,梯度很小,这样的函数会对梯度下降算法造成麻烦。
如图,初始点在最右边,往左移动很难移动,需要经过很长时间才会到达梯度较大的点。会让梯度下降算法进行得很缓慢。

凸性 (Convexity)
凸性对应到函数中就是凸函数。为什么研究凸函数——因为凸函数情境下,对算法的分析会比较简单
基础
集合的凸性
1-3 凸集合:对于集合内任意两个点,它的连线上所有的点都在集合内,则该集合是一个凸集合。
4-6 凸集合的交集仍然是凸集合。
7-8 两个凸集合的并不一定是凸集合。



函数的凸性
下图:是凸函数,不是凸函数,是凸函数

Jensen 不等式
i∑αif(xi)≥f(i∑αixi) and Ex[f(x)]≥f(Ex[x])
对于凸函数:函数值的期望>函数的期望值
凸函数的性质
- 无局部极小值
- 凸函数与凸集的关系
- 判定函数是凸函数的二阶充要条件
无局部最小值
反证:假设存在 x∈X 是局部最小值,则存在全局最小值 x′∈X, 使得 f(x)>f(x′), 则对 λ∈(0,1]:
f(x)>λf(x)+(1−λ)f(x′)
函数值的期望≥期望的函数值
λf(x)+(1−λ)f(x′)≥f(λx+(1−λ)x′)
则
f(x)>f(λx+(1−λ)x′)
与f(x)是局部最小值矛盾
凸函数与凸集的关系
(如何从凸函数导出凸集)
对于凸函数 f(x),定义集合 Sb:={x∣x∈X and f(x)≤b},则集合 Sb 为凸集
证明:对于点 x,x′∈Sb, 有 f(λx+(1−λ)x′)≤λf(x)+(1−λ)f(x′)≤b, 故 λx+(1−λ)x′∈Sb
x和x’连线上的任意一点都在这个集合内,所以说是一个凸集。
反例:下图函数对应的集合是在下面投影的高线,f(x)<b比如是两个紫色的圆,是分离开的,显然不是凸集。

判定函数是凸函数的二阶充要条件
f′′(x)≥0⟺f(x) 是凸函数
必要性 (⇐):
对于凸函数:
21f(x+ϵ)+21f(x−ϵ)≥f(2x+ϵ+2x−ϵ)=f(x)
对于凸函数有函数值的期望大于等于期望的函数值,
故:
f′′(x)=ε→0limϵϵf(x+ϵ)−f(x)−ϵf(x)−f(x−ϵ)
f′′(x)=ε→0limϵ2f(x+ϵ)+f(x−ϵ)−2f(x)≥0
充分性 (⇒):
令 a<x<b 为 f(x) 上的三个点,由拉格朗日中值定理:
f(x)−f(a)=(x−a)f′(α) for some α∈[a,x] and f(b)−f(x)=(b−x)f′(β) for some β∈[x,b]
ps:拉格朗日中值定理函数上,a和x两点的斜率,等于a到x这段函数上某点的导数相等。
根据单调性,有 f′(β)≥f′(α), 故:
f(b)−f(a)=f(b)−f(x)+f(x)−f(a)=(b−x)f′(β)+(x−a)f′(α)≥(b−a)f′(α)

限制条件
有限制条件的函数如何完成优化的
xminimizef(x) subject to ci(x)≤0 for all i∈{1,…,N}
拉格朗日乘子法
Boyd & Vandenberghe, 2004
L(x,α)=f(x)+i∑αici(x) where αi≥0
惩罚项
欲使 ci(x)≤0, 将项 αici(x) 加入目标函数,如多层感知机章节中的 2λ∣∣w∣∣2
投影
ProjX(x)=x′∈Xargmin∥x−x′∥2

习题
-
优化方法的目标是最小化_____损失函数值,深度学习的目标是最小化_______损失函数值。 a
训练集,测试集
训练集,训练集
测试集,测试集
测试集,训练集
-
________属于优化在深度学习中面临的挑战。 d
局部最小值
鞍点
梯度消失
以上都是
-
以下对多维变量的鞍点描述正确的是:_______。 a
鞍点是对所有自变量一阶偏导数都为0,且Hessian矩阵特征值有正有负的点
鞍点是对所有自变量一阶偏导数都为0,且Hessian矩阵特征值都为0的点
鞍点是对所有自变量一阶偏导数有正有负,且Hessian矩阵特征值都为0的点
鞍点是对所有自变量一阶偏导数有正有负,且Hessian矩阵特征值有正有负的点
-
假设A和B都是凸集合,那以下是凸集合的是:________。 a
A和B的交集
A和B的并集
A和B的交集和并集都是
A和B的交集和并集都不是
-
有限制条件的优化问题可以用什么方法解决:_______。 d
拉格朗日乘子法
添加惩罚项
投影法
以上都是