深度学习--超参调试-正则化及优化3

超参数调整顺序：

深度学习--超参调试-正则化及优化3

随机取值而不是网格取值，效果更好

alpha取值：

深度学习--超参调试-正则化及优化3

beta取值：

深度学习--超参调试-正则化及优化3

Batch normalization：使参数搜索问题变得更容易，使神经网络对超参数的学习更稳定

思路：对于多层网络，隐含层在**函数之前归一化z[i],使w[i],b[i]更快收敛

深度学习--超参调试-正则化及优化3

每个节点增加了两个优化变量，因为我们可能不希望隐藏单元的值必须是均值为0方差为1.

比如我们可能不希望z都是在0-1，即位于**函数的线性区域，希望z有它自己的分布，可通过r和beta学习得到。使隐含层的均值和方差标准化，但标准化的值是学习得到的。

深度学习--超参调试-正则化及优化3

BN的深入理解：

不加BN的网络：训练x-y的映射，如果x的分布改变了，可能需要重新训练；

加入BN层，即使前面的的参数改变了，因为训练得到了beta和r，至少可以保证不管输入怎么变化，a[2]的分布不变；所以BN减少了输入值改变对结果的影响，适当程度减小了前层参数对当前层的影响，使厚层的学习更容易一些，神经网络更稳定，适应性更好。

深度学习--超参调试-正则化及优化3

作用二：轻微类似正则化的效果，类似于dropout，给隐含层增加了噪音，让后一层不过分依赖隐含层的某一个节点，batch size越大，增加的噪声越小，正则化效果越弱。

问题1：训练时是在mini size上求均值和方差，但在测试时，我们一般时对样本逐一处理，怎样调整网络

答：用指数加权平均

深度学习--超参调试-正则化及优化3

softmax layer：

**函数改变了：最后一层用softmax**函数，二分类最后一层用sigmoid，中间用relu

深度学习--超参调试-正则化及优化3