李宏毅Gradient Descent（lecturte3）课堂笔记

李宏毅Gradient Descent（lecturte3）课堂笔记其中，learning rate：η　　　　：梯度，它实际是个vector。Gradient可以考虑成Loss等高线的法线方向

learning rate要小心调节

李宏毅Gradient Descent（lecturte3）课堂笔记红线的learning rate就是刚刚好，蓝线太慢了，绿线黄线太快了。可以通过画右边图来观察。

越学习越慢，不同的参数最好提供不同的learning rate。

怎么选择learning rate呢？可以采用Adagrad

李宏毅Gradient Descent（lecturte3）课堂笔记

实际举例：

李宏毅Gradient Descent（lecturte3）课堂笔记

σ^t类似累计梯度的平方？

李宏毅Gradient Descent（lecturte3）课堂笔记这里是只有一个参数的情况。

最好的方法是考虑二次微分，Adagrad就考虑了二次微分。

Stochastic Gradient Descent随机梯度下降

李宏毅Gradient Descent（lecturte3）课堂笔记先只考虑一个xⁿ，只算它的Loss，Gradient

Feature Scaling特征缩放：

李宏毅Gradient Descent（lecturte3）课堂笔记 x₁本身比较小而x₂比较大时，x₂原本就会对loss产生比较大的影响。

可以采用scaling方法：李宏毅Gradient Descent（lecturte3）课堂笔记