吴恩达视频记录:改善深层神经网络

超参数调试，正则化以及优化

第一周

偏差＼方差
机器学习基础
正则化
为什么正则化可以减少过拟合
dropout正则化
学习率衰减
神经网络的权重初始化
梯度的数值逼近

优化算法

mini-batch
指数加权平均
动量梯度下降
RMSprop
Adam优化算法
BatchNorm
局部最优
softmax

第一周

偏差＼方差

吴恩达视频记录:改善深层神经网络

偏差bias高 ，称为欠拟合；
适度拟合 介于欠拟合与过拟合之间；
分类器方差stddv高 数据过度拟合；
方差高 训练集：1%，验证集误差：11％
偏差高 训练集：15％，验证集误差：16％；
偏差和方差都高 训练集：15％，验证集误差：30％；
偏差和方差都低 训练集：0.5％，验证集误差：1％；

机器学习基础

偏差太高无法拟合训练数据：可尝试选择一个新的网络，或者尝试更先进的算法，反复尝试直到拟合数据。
如果方差太高，解决：采用更多的数据或使用正则化减少过拟合，反复尝试，直到找到低偏差＼低方差的框架。

正则化

吴恩达视频记录:改善深层神经网络
L1正则化将使模型变得稀疏。λ是正则化参数，通常使用验证集或交叉验证来配置这个参数，尝试各种各样的数据，寻找最好的参数。把λ参数值设置为较小值。避免过拟合。
L2又称为权重衰减。
吴恩达视频记录:改善深层神经网络

为什么正则化可以减少过拟合

吴恩达视频记录:改善深层神经网络

直观上理解就是如果正则化λ设置得足够大，权重矩阵W被设置为接近于0的值，就是把多隐藏单元的权重设为 0，于是基本上消除了这些隐藏单元的许多影响。如果是这种情况，这个被大大简化了的神经网络会变成一个很小的网络，小到如同一个逻辑回归单元，可是深度却很大，它会使这个网络从过度拟合的状态更接近左图的高偏差状态。但是λ会存在一个中间值，于是会有一个接近“Just Right”的中间状态。

dropout正则化

设置消除了网络中节点的概率，使网络更精简。
inverted dropout(反向随机失活)
吴恩达视频记录:改善深层神经网络
d3表示三层的dropout向量,keep-prob表示保留某个隐藏单元的概率,意味着消除任何一个隐藏单元的概率是0.2,它的作用是生成随机矩阵

过滤d3中＝０的所有元素

不论keep-prob的值是多少，反向随机失活方法通过除以keep-prob，确保a3的期望值不变，在测试阶段，当我们评估神经网络时，它使得测试阶段更容易。
dropout可以随机删除网络中的神经单元，实施dropout的结果会压缩权重

学习率衰减

吴恩达视频记录:改善深层神经网络
学习率衰减公式：
`
decay-rate：衰减率（需要调整的参数）
epoch-num：迭代次数
指数衰减（呈指数衰减）：

吴恩达视频记录:改善深层神经网络
其他形式的衰减：

吴恩达视频记录:改善深层神经网络
mini-batch的数字t

神经网络的权重初始化

Xavier初始化：

权重初始化：W[L]=np.random.randn(shape)*np.sqrt(2/n[L-1])
另一种初始化方式：np.sqrt(2/n[L-1]+n[L])

梯度的数值逼近

梯度检验：作用：确保反向传播正确实施
大写符号O的含义：逼近误差其实是一些常量乘以E2
执行梯度检验时，使用双边误差更准确。
吴恩达视频记录:改善深层神经网络

单边公差：

吴恩达视频记录:改善深层神经网络

优化算法

mini-batch

如果mini-batch size=m，即为batch梯度下降
如果mini-batch size=1，即为随机梯度下降（永远不会收敛，只会在最小值附近波动），通过减小学习率，噪声会被改善或有所减少。
缺点：会失去所有向量化带给你的加速，因为一次性只处理了一个训练样本，这样效率过于低下。
实践中，size大小最好选取在两者之间。
1.如果训练集较小（小于2000个样本），直接使用Batch梯度下降。
2.如果样本数量较大：mini-batch大小为64-512（64，128，256，512）

超参数调试，正则化以及优化

第一周

偏差＼方差

机器学习基础

正则化

为什么正则化可以减少过拟合

dropout正则化

学习率衰减

神经网络的权重初始化

梯度的数值逼近

优化算法

mini-batch

指数加权平均

动量梯度下降

RMSprop

Adam优化算法

BatchNorm

局部最优

softmax