超参数调整顺序:

深度学习--超参调试-正则化及优化3

随机取值而不是网格取值,效果更好

alpha取值:

深度学习--超参调试-正则化及优化3

beta取值:

深度学习--超参调试-正则化及优化3

 

Batch normalization:使参数搜索问题变得更容易,使神经网络对超参数的学习更稳定

思路:对于多层网络,隐含层在**函数之前归一化z[i],使w[i],b[i]更快收敛

深度学习--超参调试-正则化及优化3

每个节点增加了两个优化变量,因为我们可能不希望隐藏单元的值必须是均值为0方差为1.

比如我们可能不希望z都是在0-1,即位于**函数的线性区域,希望z有它自己的分布,可通过r和beta学习得到。使隐含层的均值和方差标准化,但标准化的值是学习得到的。

深度学习--超参调试-正则化及优化3深度学习--超参调试-正则化及优化3

BN的深入理解:

不加BN的网络:训练x-y的映射,如果x的分布改变了,可能需要重新训练;

加入BN层,即使前面的的参数改变了,因为训练得到了beta和r,至少可以保证不管输入怎么变化,a[2]的分布不变;所以BN减少了输入值改变对结果的影响,适当程度减小了前层参数对当前层的影响,使厚层的学习更容易一些,神经网络更稳定,适应性更好。

深度学习--超参调试-正则化及优化3

作用二:轻微类似正则化的效果,类似于dropout,给隐含层增加了噪音,让后一层不过分依赖隐含层的某一个节点,batch size越大,增加的噪声越小,正则化效果越弱。

问题1:训练时是在mini size上求均值和方差,但在测试时,我们一般时对样本逐一处理,怎样调整网络

答:用指数加权平均

深度学习--超参调试-正则化及优化3

softmax layer:

**函数改变了:最后一层用softmax**函数,二分类最后一层用sigmoid,中间用relu

深度学习--超参调试-正则化及优化3

深度学习--超参调试-正则化及优化3

深度学习--超参调试-正则化及优化3

 

 

相关文章:

  • 2021-09-27
  • 2021-05-16
  • 2022-01-29
  • 2021-12-11
  • 2021-06-18
  • 2021-08-12
  • 2021-10-19
  • 2021-10-04
猜你喜欢
  • 2021-10-22
  • 2021-04-23
  • 2022-01-18
  • 2021-07-12
  • 2021-05-03
  • 2021-04-10
  • 2021-07-26
相关资源
相似解决方案