吴恩达深度学习：第二课，第二周：优化算法

因为我们有5000个各有1000个样本的组，在for循环里你要做得基本就是对 $X^{\{t\}}$ 和 $Y^{\{t\}}$ 执行一步梯度下降法。
吴恩达深度学习：第二课，第二周：优化算法
由图片得，计算Z，然后是A，直到计算出预测 $A^{[L]}$ ，最后计算带正则项的代价函数。
$J=\frac{1}{1000} \sum_{i=1}^{l} L\left(\mathcal{J}^{(i)}, y^{(i)}\right)+\frac{\lambda}{21000} \sum_{l}\left\|w^{[l]}\right\|_{F}^{2}$
写下来的代码就是1代(1 epoch)的训练。一代这个词意味着只是一次遍历了训练集。

后向传播

梯度下降法如出一辙，除了你现在的对象不是X，Y，而是 $X^{\{t\}}$ 和 $Y^{\{t\}}$ 。接下来，你执行反向传播来计算 $J^{\{t\}}$ 的梯度。

理解mini-batch 梯度下降法

不同优化算法的代价函数：
吴恩达深度学习：第二课，第二周：优化算法

J代价函数的不同

梯度下降：正常下降
随机梯度下降：上下波动，有噪声，最终波动在最小点附近

用1个样本为一个mini-batch和全部样本为一个mini-batch举例

1个样本：
假设mini-batch大小为1，就有了新的算法，叫做随机梯度下降法，每个样本都是独立的mini-batch，当你看第一个mini-batch，也就是X^({1})和Y({1})，如果mini-batch大小为1，它就是你的第一个训练样本，这就是你的第一个训练样本。接着再看第二个mini-batch，也就是第二个训练样本，采取梯度下降步骤，然后是第三个训练样本，以此类推，一次只处理一个。

每次迭代，你只对一个样本进行梯度下降，大部分时候你向着全局最小值靠近，有时候你会远离最小值，因为那个样本恰好给你指的方向不对，因此随机梯度下降法是有很多噪声的，平均来看，它最终会靠近最小值，不过有时候也会方向错误，因为随机梯度下降法永远不会收敛，而是会一直在最小值附近波动，但它并不会在达到最小值并停留在此。
全部样本
你会失去所有向量化带给你的加速，因为一次性只处理了一个训练样本，这样效率过于低下

无法得到比较小的误差：改变学习率可以有效降低噪声

合理的簇大小

首先，如果训练集较小，直接使用batch梯度下降法，样本集较小就没必要使用mini-batch梯度下降法，你可以快速处理整个训练集，所以使用batch梯度下降法也很好，这里的少是说小于2000个样本，这样比较适合使用batch梯度下降法。不然，样本数目较大的话，一般的mini-batch大小为64到512，考虑到电脑内存设置和使用的方式，如果mini-batch大小是2的n次方，代码会运行地快一些，64就是2的6次方，以此类推，128是2的7次方，256是2的8次方，512是2的9次方。所以我经常把mini-batch大小设成2的次方。在上一个视频里，我的mini-batch大小设为了1000，建议你可以试一下1024，也就是2的10次方。也有mini-batch的大小为1024，不过比较少见，64到512的mini-batch比较常见。

指数加权平均

吴恩达深度学习：第二课，第二周：优化算法
公式：
$v_{t}=\beta v_{t-1}+(1-\beta) \theta_{t}$
作用：依赖前面天数的平均，使当前的值v趋于平滑稳定。
描述 $\beta$ 参数意义：

可视 $v_t$ 大概是 $\frac {1} {(1-β)}$ 的每日温度，如果β是0.9，你会想，这是十天的平均值，也就是红线部分。
将β设置为接近1的一个值，比如0.98，计算 $\frac {1} {(1-0.98)}$ =50，这就是粗略平均了一下，过去50天的温度，这时作图可以得到绿线。

理解指数加权平均

公式拆分过程：
吴恩达深度学习：第二课，第二周：优化算法
如果把这些公式合并:
$v_{100}=0.1 \theta_{100}+0.1 \times 0.9 \theta_{99}+0.1 \times(0.9)^{2} \theta_{98}+0.1 \times(0.9)^{3} \theta_{97}+0.1 \times(0.9)^{4} \theta_{96}+\cdots$
解析：
所以这是一个加和并平均，100号数据，也就是当日温度。我们分析 $v_{100}$ 的组成，也就是在一年第100天计算的数据，但是这个是总和，包括100号数据，99号数据，97号数据等等。画图的一个办法是，假设我们有一些日期的温度，所以这是数据，这是t，所以100号数据有个数值，99号数据有个数值，98号数据等等，t为100，99，98等等，这就是数日的温度数值。
吴恩达深度学习：第二课，第二周：优化算法
构建一个指数衰减函数，从 $0.1$ 开始，到 $0.1×0.9$ ，到 $0.1×(0.9)^2$ ，以此类推，所以就有了这个指数衰减函数。

当权重=0.9时，10天后，曲线的高度下降到1/3，相当于在峰值的1/e。换句话说10天前的温度对今日影响已经是越来越少。

指数加权平均的偏差修正

出现问题：按照公式，前面几天的向量v，会远小于当天的温度。

计算移动平均数的时候，初始化 $v_0=0，v_1=0.98v_0+0.02θ_1$ ，但是 $v_0=0$ ，所以这部分没有了 $（0.98v_0）$ ，所以 $v_1=0.02θ_1$ ，所以如果一天温度是40华氏度，那么 $v_1=0.02θ_1=0.02×40=8$ ，因此得到的值会小很多，所以第一天温度的估测不准!
吴恩达深度学习：第二课，第二周：优化算法
偏差修正公式：
$\frac{v_{t}}{1-\beta^{t}}$

此时随着t的越来越大，下面的分母趋近于1，而且前面估计偏少的参数也会得到修正。

动量梯度下降法

优化成本函数

吴恩达深度学习：第二课，第二周：优化算法
为了减少摆动，加快横移，使用指数加权平均
公式：

RMSprop算法

吴恩达深度学习：第二课，第二周：优化算法

dw代表水平，db代表竖直方向的摆动。使用该算法，加快了水平速度，减少了摆动大小
$S_{d W}=\beta S_{d W}+(1-\beta) d W^{2} ->small$
$S_{d b}=\beta S_{d b}+(1-\beta) d b^{2} ->big$
$W:=W-a \frac{d W}{\sqrt{S_{d W}}}, b:=b-\alpha \frac{d b}{\sqrt{S_{d b}}}$
因为本身摆动就大，其中的dW偏少，db偏大。这就导致了更新项的W变化更大，b变化更小

细节：不能让 $S_w$ 等于0，在平方根的分母加上 $\epsilon$ 。

与Momentum很像但是，还多了在水平上加速的能力。

Adam 优化算法

将Momentum与RMSprop算法柔和一起。

算法公式：

吴恩达深度学习：第二课，第二周：优化算法

该算法的超参数

吴恩达深度学习：第二课，第二周：优化算法

超参数学习率 $a$ 很重要，也经常需要调试，你可以尝试一系列值，然后看哪个有效。
$β_1$ 常用的缺省值为0.9，这是 $dW$ 的移动平均数，也就是 $dW$ 的加权平均数，这是Momentum涉及的项。
至于超参数 $β_2$ ，Adam论文作者，也就是Adam算法的发明者，推荐使用0.999，这是在计算 $(dW)^2以及(db)^2$ 的移动加权平均值，关于ε的选择其实没那么重要，Adam论文的作者建议ε为10^(-8)，但你并不需要设置它，因为它并不会影响算法表现。

学习率衰减

吴恩达深度学习：第二课，第二周：优化算法
但要慢慢减少学习率a的话，在初期的时候，a学习率还较大，你的学习还是相对较快，但随着a变小，你的步伐也会变慢变小，所以最后你的曲线（绿色线）会在最小值附近的一小块区域里摆动，而不是在训练过程中，大幅度在最小值附近摆动。
所以慢慢减少a的本质在于，在学习初期，你能承受较大的步伐，但当开始收敛的时候，小一些的学习率能让你步伐小一些。
$a=\frac{1}{1+d e c a y r a t e * \text { epoch }-\mathrm{num}} a_{0}$

其他的衰减学习率方法

指数衰减： $a=0.95^{\text {epoch - num }} a_{0}$
$a=\frac{k}{\sqrt{t}} a_{0}$

局部最优的问题

吴恩达深度学习：第二课，第二周：优化算法
人们发出局部最优所认为的二维平面，但是我们实际的神经网络是高维曲面,如下：

它存在鞍点，也就是最优点，存在平稳段，会使学习在平稳段变得缓慢

不太可能到局部优点，遇到的都是鞍点：对高维空间局部最优的认知问题，一个维度有凹有凸，如果得到局部最优，那么同时2000个维度都是凹图形，那概率太低基本不会发生。
平稳段是一个问题，会让学习很慢