参数更新的方式(优化方式)

SGD是实际方法中收敛最慢的。（直接根据梯度矫正W，因为水平方向梯度很小，垂直方向梯度很大，所以会出现如下图的波动方式）

参数更新的方式(优化方式)

补救上面的一种方式是动量更新(momentum)。（可以理解为在浅的方向上加快收敛，在深得方向上来回摆动）

参数更新的方式(优化方式)

在上面的基础上，另外一种更新方式 Nesterov Momentum

参数更新的方式(优化方式)

然后就是AdaGrad updata，这种方法可以理解为，垂直方向梯度大的时候，cache就很大，除以cache就会削弱垂直方向的梯度；水平方向梯度很小，cache就很小，除以cache就会增大水平方向的梯度。

参数更新的方式(优化方式)

在AdaGrad的基础上，提出了RMSProp ,因为当不断有正数加到分母cache中时，会慢慢导致更新停止。为了让梯度更新不停止，HIton提出了一RMSProp。

参数更新的方式(优化方式)

最后一种是Adam，他是momentum 和RMSProp的结合

参数更新的方式(优化方式)