李宏毅Gradient Descent(lecturte3)课堂笔记其中,learning rate:η    李宏毅Gradient Descent(lecturte3)课堂笔记:梯度,它实际是个vector。Gradient可以考虑成Loss等高线的法线方向

learning rate要小心调节

李宏毅Gradient Descent(lecturte3)课堂笔记红线的learning rate就是刚刚好,蓝线太慢了,绿线黄线太快了。可以通过画右边图来观察。

越学习越慢,不同的参数最好提供不同的learning rate。

怎么选择learning rate呢?可以采用Adagrad

李宏毅Gradient Descent(lecturte3)课堂笔记

实际举例:

 

李宏毅Gradient Descent(lecturte3)课堂笔记

σt类似累计梯度的平方?

李宏毅Gradient Descent(lecturte3)课堂笔记这里是只有一个参数的情况。

最好的方法是考虑二次微分,Adagrad就考虑了二次微分。

 

Stochastic Gradient Descent随机梯度下降  

李宏毅Gradient Descent(lecturte3)课堂笔记先只考虑一个xn ,只算它的Loss,Gradient

 

 

Feature Scaling特征缩放:

李宏毅Gradient Descent(lecturte3)课堂笔记x1本身比较小而x2比较大时,x2原本就会对loss产生比较大的影响。

可以采用scaling方法:李宏毅Gradient Descent(lecturte3)课堂笔记

 

相关文章:

  • 2021-05-14
  • 2021-04-05
  • 2021-08-31
  • 2021-07-26
  • 2021-08-24
  • 2021-12-17
  • 2021-09-11
猜你喜欢
  • 2021-06-17
  • 2021-06-14
  • 2021-08-01
  • 2021-05-17
  • 2021-10-08
  • 2021-12-07
  • 2021-07-23
相关资源
相似解决方案