梯度下降

  • 求θ1, θ2使损失函数最小。
  • 梯度下降方向:沿着等高线的法线方向。
    李宏毅机器学习笔记2:Gradient Descent

梯度下降要点

1. 调整你的学习率

  • 使损失函数越来越小
  • 李宏毅机器学习笔记2:Gradient DescentAdaptive Learning Rates

2.Adaptive Learning Rates

2.1 Adagrad

李宏毅机器学习笔记2:Gradient Descent
等价于李宏毅机器学习笔记2:Gradient Descent
因为:
李宏毅机器学习笔记2:Gradient Descent
李宏毅机器学习笔记2:Gradient Descent
李宏毅机器学习笔记2:Gradient Descent

(所有导数的平方的均值,再开根号)

  • 李宏毅机器学习笔记2:Gradient Descent造成反差的效果
    李宏毅机器学习笔记2:Gradient Descent
    李宏毅机器学习笔记2:Gradient Descent

2.2 Stochastic Gradient Descent

  • 一次只使用一个样本进行梯度下降
  • 更快
  • 李宏毅机器学习笔记2:Gradient Descent
    李宏毅机器学习笔记2:Gradient Descent

3 Feature Scaling

  • 让不同的特征属性投影到相同的范围内(均一化)
  • 均一化之后,梯度下降w的选取要容易很多

李宏毅机器学习笔记2:Gradient Descent

梯度下降推导

  • 泰勒展开式
  • 给定一个初始位置和范围,就能找到这个范围内的最小值
    李宏毅机器学习笔记2:Gradient Descent

局限

梯度下降很可能只是局部最优。

相关文章: