SGD是实际方法中收敛最慢的。(直接根据梯度矫正W,因为水平方向梯度很小,垂直方向梯度很大,所以会出现如下图的波动方式)

参数更新的方式(优化方式)

 

补救上面的一种方式是动量更新(momentum)。(可以理解为在浅的方向上加快收敛,在深得方向上来回摆动

参数更新的方式(优化方式)

在上面的基础上,另外一种更新方式  Nesterov Momentum 

参数更新的方式(优化方式)

然后就是AdaGrad updata,这种方法可以理解为,垂直方向梯度大的时候,cache就很大,除以cache就会削弱垂直方向的梯度;水平方向梯度很小,cache就很小,除以cache就会增大水平方向的梯度。

参数更新的方式(优化方式)

在AdaGrad的基础上,提出了RMSProp ,因为当不断有正数加到分母cache中时,会慢慢导致更新停止。为了让梯度更新不停止,HIton提出了一RMSProp。

参数更新的方式(优化方式)

最后一种是Adam,他是momentum 和RMSProp的结合

参数更新的方式(优化方式)

 

相关文章:

  • 2022-01-03
  • 2021-05-31
  • 2021-09-13
  • 2021-08-31
  • 2021-05-09
  • 2021-05-03
猜你喜欢
  • 2022-12-23
  • 2021-12-15
  • 2022-12-23
  • 2021-11-23
  • 2021-10-01
  • 2022-01-11
  • 2021-05-18
相关资源
相似解决方案