李宏毅《机器学习》笔记-4. Gradient Descent

关于梯度下降的一下技巧

若学习率太大，可能会错过最小值；若学习率太小，有可能收敛速度太慢。
李宏毅《机器学习》笔记-4. Gradient Descent

为了让梯度下降可以收敛到最小值，一般来说学习率要跟随迭代次数变小。一种常见的做法是让 $\eta^{t}={\eta} / {\sqrt{t+1}}$

Adagrad 是一种常用的可变学习率的做法，它还考虑了历史梯度均值。
李宏毅《机器学习》笔记-4. Gradient Descent

Adagrad 实际上是考虑了历史梯度造成的影响。如果再考虑损失函数对参数的二阶微分的话，可以更加准确地算出合适的学习率，例如 Adem，这些以后再说；

随机选取一个样本，只考虑这个样本产生的梯度来更新参数，使用随机梯度下降的速度更快，但有可能收敛不到最小点。
李宏毅《机器学习》笔记-4. Gradient Descent

将特征都缩放到一个近似的区间，可以消除量纲对梯度的影响，有效提高迭代效率。
李宏毅《机器学习》笔记-4. Gradient Descent