神经网络中的优化方法

1. Mini-batch decent方法

1.1. Batch vs. mini-batch

Batch：利用矢量化编程的方法，对整个训练集运用梯度下降法。梯度每下降一小步，都要处理整个训练集。这样的效率比较慢。
Mini-batch：将训练集拆分为更小的训练集，成为小批量训练集（mini-batch)
Mini-batch t: $X^{{t}}, Y^{{t}}$
对每个mini-batch都进行一次完整的前向和反向传播过程，当对所有的mini-batch都进行了前向和反向过程后，我们称完成了对训练集的一次遍历（epoch）。
Batch gradient descent，原则上cost应该是单调下降（除非learning rate太大了）；Mini-batch gradient descent，整体趋势下降，但是局部是振荡的。

1.2. Choosing mini-batch size

如果mini-batch size=m：等价于batch gradient descent，一般可以收敛到全局最小值点；
如果mini-batch size=1：等价于stochastic gradient descent，不一定收敛到全局最小值点，一般会在该点处振荡。
如果训练集较小（<2000），就使用batch gradient descent；否则，可以选择64到512之间（2的幂数）的mini-batch size。确保可以放入CPU/GPU的内存中

2. 指数加权平均方法（exponentially weighted averages）

图2.1 指数加权平均例子-寻找温度趋势

\begin{matrix} (2-1) & \begin{aligned} v_{0} & = 0 \\ v_{1} & = 0.9 v_{0} + 0.1 θ_{1} \\ v_{2} & = 0.9 v_{1} + 0.1 θ_{2} \\ v_{3} & = 0.9 v_{2} + 0.1 θ_{3} \\ ⋮ \end{aligned} \end{matrix}

第t天的指数平均值的通项公式：

\begin{matrix} (2-2) & \begin{aligned} v_{t} & = β v_{t - 1} + (1 - β) θ_{t} \\ = (1 - β) (θ_{t} + β θ_{t - 1} + \dots + β^{k} θ_{t - k} + \dots + β^{t - 1} θ_{1}) \end{aligned} \end{matrix}

近似公式：

\begin{matrix} (2-3) & v_{t} \approx \frac{1}{1 - β} d a y s^{'} t e m p e r a t u r e \end{matrix}

如图2.2所示，当

β

增大时，曲线向右平移（绿线）；

β

减小时，曲线振荡加剧（黄线），
神经网络中的优化方法

图2.2 β大小对曲线形状的影响

2.1. Bias Correction（偏差修正）

原因： $v_{0} = 0$ 导致初始阶段的点估计不准
解决方法：用 $\frac{v_{t}}{1 - β^{t}}$ 代替 $v_{t}$

3. Gradient descent with momentum（动量梯度下降）

背景问题：当目标函数的等高线为图3.1所示时，梯度下降的过程中可能会发生振荡：

图3.1 梯度下降振荡的例子>
Momentum：
On iteration t:
Compute

d w, d b

on current mini-batch.

\begin{matrix} (3-1) & \begin{aligned} v_{d w} & = β v_{d w} + (1 - β) d w \\ v_{d b} & = β v_{d b} + (1 - β) d b \\ w & := w - α v_{d w}; \\ b & := b - α v_{d b} \end{aligned} \end{matrix}

采用前面提到的指数加权平均可以使梯度的下降过程更平滑。
一般

β

取0.9就好，而且实际中一般不用修正偏差，因为迭代几步后偏差就自动减小很多了。

4. RMSprop（Root Mean Square prop，均方根传递）

On iteration t:
Compute $d w, d b$ on current mini-batch.

\begin{matrix} (4-1) & \begin{aligned} s_{d w} & = β s_{d w} + (1 - β) d w^{2} \\ s_{d b} & = β s_{d b} + (1 - β) d b^{2} \\ w & := w - α \frac{d w}{\sqrt{s_{d w}}}; \\ b & := b - α \frac{d b}{\sqrt{s_{d b}}} \end{aligned} \end{matrix}

垂直方向除以一个较大的数，水平方向除以一个较小的数（假设b是垂直方向，w是水平方向）。为了防止分母出现零的情况，可以在分母加上一个小的

ϵ

5. Adam优化算法

Adam的本质是将动量和RMSprop结合起来。
$v_{d w} = 0, s_{d w} = 0. v_{d b} = 0, s_{d b} = 0.$
On iteration t:
Compute $d w, d b$ on current mini-batch.

\begin{matrix} (5-1) & \begin{aligned} v_{d w} & = β_{1} v_{d w} + (1 - β_{1}) d w \\ v_{d b} & = β_{1} v_{d b} + (1 - β_{1}) d b \\ s_{d w} & = β_{2} s_{d w} + (1 - β_{2}) d w^{2} \\ s_{d b} & = β_{2} s_{d b} + (1 - β_{2}) d b^{2} \\ V_{d w}^{c o r r e c t e d} & = v_{d w} / (1 - β_{1}^{t}), V_{d b}^{c o r r e c t e d} = v_{d b} / (1 - β_{1}^{t}) \\ S_{d w}^{c o r r e c t e d} & = s_{d w} / (1 - β_{2}^{t}), S_{d b}^{c o r r e c t e d} = s_{d b} / (1 - β_{2}^{t}) \\ w & := w - α \frac{V_{d w}^{c o r r e c t e d}}{\sqrt{S_{d w}^{c o r r e c t e d}}}; \\ b & := b - α \frac{V_{d b}^{c o r r e c t e d}}{\sqrt{S_{d b}^{c o r r e c t e d}}} \end{aligned} \end{matrix}

超参数：

α

:人工调整

β_{1} : 0.9

，

(d w)

β_{2} : 0.999

，

(d w^{2})

ϵ

10^{- 8}

6. 学习率衰减（learning rate decay）

图6.1 固定学习率导致不能完全收敛的示意图
解决方法：让学习率

α

逐渐下降。
下降的形式：
-

α = \frac{1}{1 + d e c a y - r a t e * e p o c h - n u m}

α = {0.95}^{e p o c h - n u m} \cdot α_{0}

α = \frac{k}{\sqrt{e} p o c h - n u m} α_{0}

- …