文章目录
Mini-batch 梯度下降法
首先需要将数据集取为子集Mini-batch,然后进行训练
符号定义
引入了大括号t来代表不同的mini-batch,所以我们有和。
维度方面:如果是一个有1000个样本的训练集,或者说是1000个样本的值,所以维数应该是,的维数应该是(n_x,1000)。而这些的维数都是(1,1000)。
前向传播
因为我们有5000个各有1000个样本的组,在for循环里你要做得基本就是对和执行一步梯度下降法。
由图片得,计算Z,然后是A,直到计算出预测,最后计算带正则项的代价函数。
写下来的代码就是1代(1 epoch)的训练。一代这个词意味着只是一次遍历了训练集。
后向传播
梯度下降法如出一辙,除了你现在的对象不是X,Y,而是和。接下来,你执行反向传播来计算的梯度。
理解mini-batch 梯度下降法
不同优化算法的代价函数:
J代价函数的不同
梯度下降:正常下降
随机梯度下降:上下波动,有噪声,最终波动在最小点附近
用1个样本为一个mini-batch和全部样本为一个mini-batch举例
- 1个样本:
假设mini-batch大小为1,就有了新的算法,叫做随机梯度下降法,每个样本都是独立的mini-batch,当你看第一个mini-batch,也就是X({1})和Y({1}),如果mini-batch大小为1,它就是你的第一个训练样本,这就是你的第一个训练样本。接着再看第二个mini-batch,也就是第二个训练样本,采取梯度下降步骤,然后是第三个训练样本,以此类推,一次只处理一个。
每次迭代,你只对一个样本进行梯度下降,大部分时候你向着全局最小值靠近,有时候你会远离最小值,因为那个样本恰好给你指的方向不对,因此随机梯度下降法是有很多噪声的,平均来看,它最终会靠近最小值,不过有时候也会方向错误,因为随机梯度下降法永远不会收敛,而是会一直在最小值附近波动,但它并不会在达到最小值并停留在此。 - 全部样本
你会失去所有向量化带给你的加速,因为一次性只处理了一个训练样本,这样效率过于低下
无法得到比较小的误差:改变学习率可以有效降低噪声
合理的簇大小
首先,如果训练集较小,直接使用batch梯度下降法,样本集较小就没必要使用mini-batch梯度下降法,你可以快速处理整个训练集,所以使用batch梯度下降法也很好,这里的少是说小于2000个样本,这样比较适合使用batch梯度下降法。不然,样本数目较大的话,一般的mini-batch大小为64到512,考虑到电脑内存设置和使用的方式,如果mini-batch大小是2的n次方,代码会运行地快一些,64就是2的6次方,以此类推,128是2的7次方,256是2的8次方,512是2的9次方。所以我经常把mini-batch大小设成2的次方。在上一个视频里,我的mini-batch大小设为了1000,建议你可以试一下1024,也就是2的10次方。也有mini-batch的大小为1024,不过比较少见,64到512的mini-batch比较常见。
指数加权平均
公式:
作用:依赖前面天数的平均,使当前的值v趋于平滑稳定。
描述参数意义:
- 可视大概是的每日温度,如果β是0.9,你会想,这是十天的平均值,也就是红线部分。
- 将β设置为接近1的一个值,比如0.98,计算=50,这就是粗略平均了一下,过去50天的温度,这时作图可以得到绿线。
理解指数加权平均
公式拆分过程:
如果把这些公式合并:
解析:
所以这是一个加和并平均,100号数据,也就是当日温度。我们分析的组成,也就是在一年第100天计算的数据,但是这个是总和,包括100号数据,99号数据,97号数据等等。画图的一个办法是,假设我们有一些日期的温度,所以这是数据,这是t,所以100号数据有个数值,99号数据有个数值,98号数据等等,t为100,99,98等等,这就是数日的温度数值。
构建一个指数衰减函数,从开始,到,到,以此类推,所以就有了这个指数衰减函数。
当权重=0.9时,10天后,曲线的高度下降到1/3,相当于在峰值的1/e。换句话说10天前的温度对今日影响已经是越来越少。
指数加权平均的偏差修正
出现问题:按照公式,前面几天的向量v,会远小于当天的温度。
计算移动平均数的时候,初始化,但是,所以这部分没有了,所以,所以如果一天温度是40华氏度,那么,因此得到的值会小很多,所以第一天温度的估测不准!
偏差修正公式:
此时随着t的越来越大,下面的分母趋近于1,而且前面估计偏少的参数也会得到修正。
动量梯度下降法
优化成本函数
为了减少摆动,加快横移,使用指数加权平均
公式:
RMSprop算法
dw代表水平,db代表竖直方向的摆动。使用该算法,加快了水平速度,减少了摆动大小
因为本身摆动就大,其中的dW偏少,db偏大。这就导致了更新项的W变化更大,b变化更小
细节:不能让等于0,在平方根的分母加上。
与Momentum很像但是,还多了在水平上加速的能力。
Adam 优化算法
将Momentum与RMSprop算法柔和一起。
算法公式:
该算法的超参数
- 超参数学习率很重要,也经常需要调试,你可以尝试一系列值,然后看哪个有效。
- 常用的缺省值为0.9,这是的移动平均数,也就是的加权平均数,这是Momentum涉及的项。
- 至于超参数,Adam论文作者,也就是Adam算法的发明者,推荐使用0.999,这是在计算的移动加权平均值,关于ε的选择其实没那么重要,Adam论文的作者建议ε为10^(-8),但你并不需要设置它,因为它并不会影响算法表现。
学习率衰减
但要慢慢减少学习率a的话,在初期的时候,a学习率还较大,你的学习还是相对较快,但随着a变小,你的步伐也会变慢变小,所以最后你的曲线(绿色线)会在最小值附近的一小块区域里摆动,而不是在训练过程中,大幅度在最小值附近摆动。
所以慢慢减少a的本质在于,在学习初期,你能承受较大的步伐,但当开始收敛的时候,小一些的学习率能让你步伐小一些。
其他的衰减学习率方法
- 指数衰减:
局部最优的问题
人们发出局部最优所认为的二维平面,但是我们实际的神经网络是高维曲面,如下:
它存在鞍点,也就是最优点,存在平稳段,会使学习在平稳段变得缓慢
- 不太可能到局部优点,遇到的都是鞍点:对高维空间局部最优的认知问题,一个维度有凹有凸,如果得到局部最优,那么同时2000个维度都是凹图形,那概率太低基本不会发生。
- 平稳段是一个问题,会让学习很慢