深度模型优化与正则化:
-
网络优化
目的:经验风险最小化。对于低维来说,目的是逃离局部最优点;对于高维来说,则是逃离鞍点。 -
梯度下降
批量梯度下降、小批量梯度下降、随机批量梯度下降。 -
学习率
流程:学习率预热、学习率衰减、学习率周期调整、自适应学习率。
1)学习率预热:
2)学习率衰减
3)周期性学习率调整
4)自适应学习率 -
缓解batch小导致的幅度震荡
动量法
比较: -
参数初始化
-
数据初始化
-
超参数优化
-
过拟合-正则化
有点累了—以后再写
深度模型优化与正则化:
网络优化
目的:经验风险最小化。对于低维来说,目的是逃离局部最优点;对于高维来说,则是逃离鞍点。
梯度下降
批量梯度下降、小批量梯度下降、随机批量梯度下降。
学习率
流程:学习率预热、学习率衰减、学习率周期调整、自适应学习率。
1)学习率预热:
2)学习率衰减
3)周期性学习率调整
4)自适应学习率
缓解batch小导致的幅度震荡
动量法
比较:
参数初始化
数据初始化
超参数优化
过拟合-正则化
有点累了—以后再写
相关文章: