首先,梯度下降最直观就是方向的选择问题,从山顶往山底,每次沿着梯度的方向(最抖的方向)往下,路程是最短的。
梯度下降的目的是最小化损失函数。

梯度下降的三种方法:

Batch gradient descent: 每一步的梯度下降都使用了所有的训练样本,所有样本梯度的平均值。缺点是计算量大,内存消耗大。优点:全局最优解;易于并行实现。

SGD 随机梯度下降,每个样本都计算一次梯度并下降。训练速度快,可能局部最小。

Mini-batch:综合了上述两者的优点。把数据集分成多个子集,然后每次对子集里的样本进行梯度下降。

附:样本特征的缩放以及标准化可以使得梯度下降更快!

梯度下降的推导流程和向量化例子:
假设函数如下

梯度下降方法及实例
损失函数是平方误差的形式:
梯度下降方法及实例
要使损失函数达到最小,依次更新 delta0,delta1……
梯度下降方法及实例

相关文章:

  • 2022-12-23
  • 2021-09-16
  • 2021-09-12
  • 2022-12-23
  • 2022-01-01
  • 2021-04-08
  • 2022-12-23
  • 2021-09-06
猜你喜欢
  • 2021-09-10
  • 2022-12-23
  • 2022-12-23
  • 2021-08-02
  • 2022-01-01
  • 2021-09-23
  • 2021-06-19
相关资源
相似解决方案