1、Adagrad
Adagrad是解决不同参数应该使用不同的更新速率的问题。Adagrad自适应地为各个参数分配不同学习率的算法。

【李宏毅】机器学习 笔记03(Tips of gradient descent)

公式如下:

【李宏毅】机器学习 笔记03(Tips of gradient descent)

 

2、Stochastic Gradient Descent(SGD:随机梯度下降)
如果使用梯度下降法(批量梯度下降法),那么每次迭代过程中都要对个样本进行求梯度,所以开销非常大,随机梯度下降的思想就是随机采样一个样本来更新参数,那么计算开销就下降了 

【李宏毅】机器学习 笔记03(Tips of gradient descent)

 

3、Feature Scaling(特征缩放)-- 使下降加快
当特征值有相似的范围的话梯度下降会比较快

【李宏毅】机器学习 笔记03(Tips of gradient descent)

具体做法:

【李宏毅】机器学习 笔记03(Tips of gradient descent)

相关文章:

  • 2021-08-24
  • 2021-10-12
  • 2021-08-27
  • 2021-06-17
  • 2021-06-14
  • 2021-05-17
  • 2021-11-17
  • 2021-11-11
猜你喜欢
  • 2021-10-08
  • 2021-12-07
  • 2021-07-23
  • 2021-05-14
  • 2021-04-05
  • 2021-08-31
  • 2021-07-26
相关资源
相似解决方案