SGD是实际方法中收敛最慢的。(直接根据梯度矫正W,因为水平方向梯度很小,垂直方向梯度很大,所以会出现如下图的波动方式)
补救上面的一种方式是动量更新(momentum)。(可以理解为在浅的方向上加快收敛,在深得方向上来回摆动)
在上面的基础上,另外一种更新方式 Nesterov Momentum
然后就是AdaGrad updata,这种方法可以理解为,垂直方向梯度大的时候,cache就很大,除以cache就会削弱垂直方向的梯度;水平方向梯度很小,cache就很小,除以cache就会增大水平方向的梯度。
在AdaGrad的基础上,提出了RMSProp ,因为当不断有正数加到分母cache中时,会慢慢导致更新停止。为了让梯度更新不停止,HIton提出了一RMSProp。
最后一种是Adam,他是momentum 和RMSProp的结合