李宏毅Machine Learning学习笔记3 Gradient Descent

optimization problem

$θ^{*} = \arg min_{θ} L (θ)$

Tip 1: Tuning your Learning rates

李宏毅Machine Learning学习笔记3 Gradient Descent
- 1 small 如果步伐非常小训练的时间会非常长。
- 2 large 如果步伐非常大没有办法走到最低点。会在一个范围震荡
- 3 very large 如果步伐太大 loss很快就飞出去了。

visionlize loss 和参数更新的关系。

李宏毅Machine Learning学习笔记3 Gradient Descent
- 1 learning rate 太小 loss下降非常慢
- 2 lerning rate 太大 loss下降非常快但是很快就卡住。
- 3 learning rate 特别大 loss很快就飞出去了。

在做梯度下降的时候，最好把这个图画出来。否则你不知道这个梯度下降在哪里坏掉了。

Adaptive Learning Rates

Popular & Simple Idea: Reduce the learning rate by some factor every few epochs.

通常leaning rate 随着参数的update会减小。

At the beginning, we are far from the destination, so we use larger learning rate（刚开始的时候，离最低点比较远，所以你的步伐需要大一点。）
After several epochs, we are close to the destination, so we reduce the learning rate（经过几次更新之后呢，已经比较靠近目标了，这时候就应该减小learning rate）
eg

$η^{t} = η / \sqrt{t + 1}$

Learning rate cannot be one-size-fits-all

Giving different parameters different learning rates

不同的参数有不同的learning rate)

Adagrad

李宏毅Machine Learning学习笔记3 Gradient Descent

$w^{1} \leftarrow w^{0} - \frac{η^{0}}{δ^{0}} g^{0} δ^{0} = \sqrt{(g^{0})^{2}}$

$w^{2} \leftarrow w^{1} - \frac{η^{1}}{δ^{1}} g^{1} δ^{1} = \sqrt{\frac{1}{2} [(g^{0})^{2} + (g^{1})^{2}]}$

$w^{3} \leftarrow w^{2} - \frac{η^{2}}{δ^{2}} g^{2} δ^{2} = \sqrt{\frac{1}{3} [(g^{0})^{2} + (g^{1})^{2} + (g^{2})^{2}]}$

$\dots$

$w^{t + 1} \leftarrow w^{t} - \frac{η^{t}}{δ^{t}} g^{t} δ^{t} = \sqrt{\frac{1}{t + 1} \sum_{t = 0}^{t} (g^{i})^{2}}$

$η^{t} = \frac{η}{\sqrt{t + 1}}$

$↓$

$w^{t + 1} \leftarrow w^{t} - \frac{η}{\sqrt{\sum_{t = 0}^{t} (g^{i})^{2}}} g^{t}$

分母使参数更新更慢，分子使参数更新更快。

最好的step 和一次微分成正比，和二次微分成反比。

$\sqrt{\sum_{t = 0}^{t} (g^{i})^{2}}$
“一次微分的平方和开根号代表了二次微分。

Tip2: Stochastic Gradient Descent

如果你现在是在做deep learning 的 case 也就是你的error surface 不是compex 是非常崎岖的。随机取呢是有帮助的。你只算一个example 的loss。

$L^{n} = ({\hat{y}}^{n} - (b + w \cdot x_{c p}^{n}))^{2}$

看一个example,就更新一次参数。参数更新的更快。

Tip3 Feature Scaling

Make different features have the same scaling

不同的feature 有不同的范围。要对feature做缩放。

李宏毅Machine Learning学习笔记3 Gradient Descent

不会向最低点走，而是想着等高线的法线方向去走。

Gradient Descent Theory

在利用梯度下降法(GD)求解损失函数时，参数更新后，Loss不一定下降

Warning of math

Taylor Series (泰勒级数)

$h (x) = \sum_{k = 0}^{\infty} \frac{h^{(k)} (x_{0})}{k!} (x - x_{0})^{k}$

$= h (x_{0}) + h^{^{'}} (x_{0}) (x - x_{0}) + \frac{h^{^{″}} (x_{0})}{2!} (x - x_{0}) + \dots$

when x is close to x0，x-x_0远大于后面的高次项,所以就可以把后面的高次项忽略。

$h (x) \approx h (x_{0}) + h^{^{'}} (x_{0}) (x - x_{0})$

Multivariable Taylor Series

when x is close to x0 y is close to y0

$h (x, y) \approx h (x_{0}, y_{0}) + \frac{\partial h (x_{0}, y_{0})}{\partial x} (x - x_{0}) + \frac{\partial h (x_{0}, y_{0})}{\partial y} (y - y_{0})$

If the red circle is small enough, in the red circle

圆圈足够小。
$L (θ) \approx L (a, b) + \frac{\partial L (a, b)}{\partial θ_{1}} (θ_{1} - a) + \frac{\partial L (a, b)}{\partial θ_{2}} (θ_{2} - b)$

constant（常量）

$s = L (a, b) u = \frac{\partial L (a, b)}{\partial θ_{1}} v = \frac{\partial L (a, b)}{\partial θ_{2}}$

$↓$

$L (0 θ) \approx L (a, b) + u (θ_{1} - a) + v (θ_{2} - b)$

$(θ_{1} - a) \to Δ θ_{1}$

$(θ_{2} - b) \to Δ θ_{2}$

$(Δ θ_{1}, Δ θ_{2}) a n d (u, v)$
$‘ ‘ ‘$
做向量乘积。

李宏毅Machine Learning学习笔记3 Gradient Descent

1 我们可以用这个方法找一个最小值，前提是泰勒展开式成立。理论上学习率要无穷小才能保证Loss越来越小。如果你的learning rate 没有设好，导致泰勒展开不成立，所以loss不一定会变小。

2我们只考虑了泰勒级数里的一次式，如果我们把二次式考虑进来,会多很多运算，而这个运算是无法承受的。用这个运算来换更新参数的效率是不划算的。（eg:deep learning）

在做deep learining的时候考虑二次项的话，你用对二次项的运算来换取learining rate。这个是不划算的，通常是承受不了的。

More Limitation of Gradient Descent

stuck at local minima 微分等于0
stuck at saddle point 比较平滑的地方微分约等于0
very slow at the plateau 微分等于0

optimization problem

Tip 1: Tuning your Learning rates

visionlize loss 和 参数更新的关系。

在做梯度下降的时候，最好把这个图画出来。否则你不知道这个梯度下降在哪里坏掉了。

Adaptive Learning Rates

Popular & Simple Idea: Reduce the learning rate by some factor every few epochs.

Learning rate cannot be one-size-fits-all

Adagrad

Tip2: Stochastic Gradient Descent

Tip3 Feature Scaling

Make different features have the same scaling

Gradient Descent Theory

Warning of math

Taylor Series (泰勒级数)

Multivariable Taylor Series

If the red circle is small enough, in the red circle

constant（常量）

1 我们可以用这个方法找一个最小值，前提是泰勒展开式成立。理论上学习率要无穷小才能保证Loss越来越小。如果你的learning rate 没有设好，导致泰勒展开不成立，所以loss不一定会变小。

2我们只考虑了泰勒级数里的一次式，如果我们把二次式考虑进来,会多很多运算，而这个运算是无法承受的。用这个运算来换更新参数的效率是不划算的。（eg:deep learning）

More Limitation of Gradient Descent

visionlize loss 和参数更新的关系。