深度学习（二）

算法优化

mini-batch

将庞大的数据集分成许多个batch，遍历这些batch，每个batch使用梯度下降法进行优化
如果batch的数目太大，则每次迭代的时间太长，如果batch的数目为1，则退化为随机梯度下降法，这样就丧失了向量化的加速作用，因此，需要合理选择batch的数目，一般对于较大的数据集，选择为64或128到512，一般是2的整数次幂。

指数加权平均

$v_{t} = β v_{t - 1} + (1 - β) θ_{t}$ ，其大概平均了 $\frac{1}{1 - β}$ 的数据，其中 $β$ 的值常常取为0.9
当权值过大时，初始阶段可能偏差过大，这时可利用 $\frac{v_{t}}{1 - β^{t}}$ 来去掉偏差

momentum梯度下降法

此种方法的目的是消除随机梯度下降法的上下波动，当计算出dw、db等梯度后，使用 $v_{d w}, v_{d b}$ 来代替，使用这些值来更新各个参数

RMSprop算法

此种算法对momentum做了一定的修改，更新公式变为 $S_{d w} = β S_{d w} + (1 - β) (d w)^{2}$ ，其权值更新公式变为： $w = w - α \frac{d w}{\sqrt{S_{d w}}}$ ，为了防止权值更新公式中除以0，所以要在除的时候加一个很小的值 $ε$

Adam算法

结合了上述两种算法，最终权值更新公式变为： $w = w - α \frac{V_{d w}}{\sqrt{S_{d w}} + ε}$ ，其中momentum常用的超参数的值为0.9，RMSprop中常用的超参数的值为0.999，极小值常取的值为 $10^{- 8}$

学习率的衰减

$α = \frac{1}{1 + d e c a y_r a t e * e p o c h_n u m} α_{0}$
除此之外，还有其他的许多衰减算法，例如：
深度学习（二）