第一周

偏差\方差

吴恩达视频记录:改善深层神经网络

  1. 偏差bias高 ,称为欠拟合;
  2. 适度拟合 介于欠拟合与过拟合之间;
  3. 分类器方差stddv高 数据过度拟合;
    吴恩达视频记录:改善深层神经网络
  4. 方差高 训练集:1%,验证集误差:11%
  5. 偏差高 训练集:15%,验证集误差:16%;
  6. 偏差和方差都高 训练集:15%,验证集误差:30%;
  7. 偏差和方差都低 训练集:0.5%,验证集误差:1%;

机器学习基础

偏差太高无法拟合训练数据:可尝试选择一个新的网络,或者尝试更先进的算法,反复尝试直到拟合数据。
如果方差太高,解决:采用更多的数据或使用正则化减少过拟合,反复尝试,直到找到低偏差\低方差的框架。

正则化

吴恩达视频记录:改善深层神经网络
L1正则化将使模型变得稀疏。λ是正则化参数,通常使用验证集或交叉验证来配置这个参数,尝试各种各样的数据,寻找最好的参数。把λ参数值设置为较小值。避免过拟合。
L2又称为权重衰减。
吴恩达视频记录:改善深层神经网络

为什么正则化可以减少过拟合

吴恩达视频记录:改善深层神经网络
吴恩达视频记录:改善深层神经网络
直观上理解就是如果正则化λ设置得足够大,权重矩阵W被设置为接近于0的值,就是把多隐藏单元的权重设为 0,于是基本上消除了这些隐藏单元的许多影响。如果是这种情况,这个被大大简化了的神经网络会变成一个很小的网络,小到如同一个逻辑回归单元,可是深度却很大,它会使这个网络从过度拟合的状态更接近左图的高偏差状态。但是λ会存在一个中间值, 于是会有一个接近“Just Right”的中间状态。

dropout正则化

设置消除了网络中节点的概率,使网络更精简。
inverted dropout(反向随机失活)
吴恩达视频记录:改善深层神经网络
d3表示三层的dropout向量,keep-prob表示保留某个隐藏单元的概率,意味着消除任何一个隐藏单元的概率是0.2,它的作用是生成随机矩阵
吴恩达视频记录:改善深层神经网络
过滤d3中=0的所有元素
吴恩达视频记录:改善深层神经网络
不论keep-prob的值是多少,反向随机失活方法通过除以keep-prob,确保a3的期望值不变,在测试阶段,当我们评估神经网络时,它使得测试阶段更容易。
dropout可以随机删除网络中的神经单元,实施dropout的结果会压缩权重

学习率衰减

吴恩达视频记录:改善深层神经网络
学习率衰减公式:
`吴恩达视频记录:改善深层神经网络
decay-rate:衰减率(需要调整的参数)
epoch-num:迭代次数
指数衰减(呈指数衰减):

吴恩达视频记录:改善深层神经网络
其他形式的衰减:

吴恩达视频记录:改善深层神经网络
mini-batch的数字t

神经网络的权重初始化

  • Xavier初始化:
    吴恩达视频记录:改善深层神经网络
    权重初始化:W[L]=np.random.randn(shape)*np.sqrt(2/n[L-1])
    另一种初始化方式:np.sqrt(2/n[L-1]+n[L])

梯度的数值逼近

梯度检验:作用:确保反向传播正确实施
大写符号O的含义:逼近误差 其实是一些常量乘以E2
执行梯度检验时,使用双边误差更准确。
吴恩达视频记录:改善深层神经网络
吴恩达视频记录:改善深层神经网络
单边公差:
吴恩达视频记录:改善深层神经网络

吴恩达视频记录:改善深层神经网络

优化算法

mini-batch

如果mini-batch size=m,即为batch梯度下降
如果mini-batch size=1,即为随机梯度下降(永远不会收敛,只会在最小值附近波动),通过减小学习率,噪声会被改善或有所减少。
缺点:会失去所有向量化带给你的加速,因为一次性只处理了一个训练样本,这样效率过于低下。
实践中,size大小最好选取在两者之间。
1.如果训练集较小(小于2000个样本),直接使用Batch梯度下降。
2.如果样本数量较大:mini-batch大小为64-512(64,128,256,512)

指数加权平均

动量梯度下降

RMSprop

Adam优化算法

BatchNorm

局部最优

softmax

吴恩达视频记录:改善深层神经网络

相关文章: