【Deep Learning 】深度模型中的优化问题（三）Nesterov Momentum(牛顿动量)

本文是Deep Learning 之最优化方法系列文章的Nesterov Momentum(牛顿动量) 方法。主要参考Deep Learning 一书。

以下节选自个人深度学习笔记。
内容整合来源于网络与个人理解。

口公式如下：

口对Momentum的一种改进：先对参数进行估计，然后使用估计后的参数来计算误差。

【Deep Learning 】深度模型中的优化问题（三）Nesterov Momentum(牛顿动量)

碎碎念：

先上结论：

1.Nesterov是Momentum的变种。

2.与Momentum唯一区别就是，计算梯度的不同，Nesterov先用当前的速度v更新一遍参数，在用更新的临时参数计算梯度。

3.相当于添加了矫正因子的Momentum。

4.在梯度下降GD下，Nesterov将误差收敛从O（1/k），改进到O(1/k^2)。

5.然而在SGD下，Nesterov并没有任何改进。

具体算法如下所示：

【Deep Learning 】深度模型中的优化问题（三）Nesterov Momentum(牛顿动量)

参考：