Adptive Learning Rates

能够在update参数的同时,根据已知的信息更新learning rate,使得learning rate大小随着迭代次数的增加适应cost曲线的变化。

对adptive learning rate的要求:

  • 能够在接近optimal的附近时,让desent的步伐越来越小,由此达到最优值
  • 能够对不同的参数给出不一样的learning rate
  • 能够降低saddle points,local optimal、gradient为正值,以及gradient 过小对结果的影响
  • 等等,其他众多要求

原因:
1,为什么要满足要求1:

  • learning rate越大desent的步伐越大,参数update的步伐越大,速度越快,我们希望在开始gradient的点远离optimal的时候,参数更新的速度快,步伐大;而在靠近optimal的时候步伐减小,避免无法到optimal的情况。

Optimization和adptive learning rate的介绍(李宏毅ML课程笔记)
左图为learning rate大的情况,无法抵达cost曲线的最低点;右边为learning rate很小的情况,需要update很多次参数才能到达cost曲线的optimal(并且cost曲线很复杂的情况下,lr很小很容易停在saddlepoints, 浅的local optimal等位置)。

2, 为什么要满足要求2:
对于不同的参数 θ i \theta_i θi,他们对应的cost曲线的偏分是不一样的:
比如最简单的linear regression中(n代表所有trainning examples):
L ( w , b ) = ∑ n ( y n − ( b + w 1 x 1 n + w 2 x 2 n ) ) 2 L(w, b) = \sum^n(y^{n}-(b+w_1x_{1}^n+w_2x_{2}^n))^2 L(w,b)=n(yn(b+w1x1n+w2x2n))2
loss function对w和对b的偏分分别是:
∂ L ∂ w 1 = − 2 ∑ n ( y n − ( b + w 1 x 1 n + w 2 x 2 n ) ) ( x 1 n ) \frac{\partial L}{\partial w_1}=-2\sum^n(y^n-(b+w_1x_{1}^n+w_2x_{2}^n))(x_{1}^n) w1L=2n(yn(b+w1x1n+w2x2n))(x1n)
∂ L ∂ w 2 = − 2 ∑ n ( y n − ( b + w 1 x 1 n + w 2 x 2 n ) ) ( x 2 n ) \frac{\partial L}{\partial w_2} = -2\sum^n(y^n-(b+w_1x_{1}^n+w_2x_{2}^n))(x_2^n) w2L=2n(yn(b+w1x1n+w2x2n))(x2n)
两者的偏分完全不一样,也就是说cost曲线在对w和对b方向的陡峭程度是不一样的。对于不同的陡峭程度来说,同一个learning rate可能在较为平缓的曲线上是合适的,但是在更陡峭的曲线上是过大的,这就会导致上面learning rate过大时产生的问题。

Optimization和adptive learning rate的介绍(李宏毅ML课程笔记)
如上图所示,learning rate相同且较大时,对于较为平滑的曲线(即loss function对参数的偏分较小)上能够抵达optimal,但是在更陡峭的曲线上无法抵达optimal。

对于这个问题我们其实有两种解决方法,第一种:调整参数,对于不同的参数w给与不同的learning rate;第二种:feature scaling,将同一example的features放大或者缩小到同一范围。

这个我们先讨论第一个方法,对不同的参数给与不同的learning rate。

3,为什么要满足第三点:
首先我们看下图了解什么是saddle point、local optimal、gradient为正值、以及gradient过小,以及他们对收敛的影响:
Optimization和adptive learning rate的介绍(李宏毅ML课程笔记)
编号1:gradient过小
编号2:saddle
编号3:local optimal
编号4:gradient为正值

接下来的明天再写,灵魂画手今天要休息了

相关文章:

  • 2022-01-18
  • 2021-11-18
  • 2021-11-02
  • 2021-10-29
  • 2021-07-12
  • 2021-11-13
  • 2021-08-02
  • 2021-09-26
猜你喜欢
  • 2021-10-04
  • 2021-07-26
  • 2021-07-12
  • 2021-11-11
  • 2022-02-18
  • 2021-04-06
  • 2021-09-11
相关资源
相似解决方案