sgd:
对损失项和正则化项一刀切,没对正则化项区别对待。以致
1)优化速度慢;2)准确性不高。

rda:
regularized dual averaging
正则双平均
对损失项和正则化项区分考虑,获得正则化项的闭合形解。在优化速度方面优于sgd。

为什么称为双平均?

在损失项子梯度中,一是对历史子梯度的平均,二是对当前子梯度的平均。


【算法】最优化之RDA正则化双平均

【算法】最优化之RDA正则化双平均

【算法】最优化之RDA正则化双平均

【算法】最优化之RDA正则化双平均

【算法】最优化之RDA正则化双平均

相关文章:

  • 2022-02-07
  • 2021-09-28
  • 2021-06-11
  • 2021-06-26
  • 2021-12-03
猜你喜欢
  • 2022-12-23
  • 2021-07-07
  • 2021-11-03
  • 2021-04-27
  • 2022-01-11
  • 2022-12-23
  • 2021-10-02
相关资源
相似解决方案