之前对各个优化器理解的不是特别清晰,最近通过分析,列出一个表格来对比他们之间的异同点。如下:

用一个表格分析对比深度学习中所有的优化器

用一个表格分析对比深度学习中所有的优化器 用一个表格分析对比深度学习中所有的优化器

不同优化器的可视化比较(一图胜千言):

1. 不同优化器的优化速度比较。SGD最慢,Adadelta最快,动量法会走一些弯路。

 用一个表格分析对比深度学习中所有的优化器

 2. 遇到鞍点时不同优化器的反应。SGD会被困于鞍点,动量法会在鞍点耽误较长时间。Adadelta脱离速度最快,优化也最快。Rmsprop次之。

 用一个表格分析对比深度学习中所有的优化器

 

注:后面的动画引用自:https://ruder.io/optimizing-gradient-descent/ 

相关文章:

  • 2021-10-19
  • 2021-09-15
  • 2021-12-15
  • 2021-12-03
  • 2021-10-16
  • 2021-10-08
  • 2021-11-13
  • 2022-12-23
猜你喜欢
  • 2021-10-20
  • 2021-11-21
  • 2021-08-22
  • 2021-11-08
  • 2021-05-11
  • 2021-06-27
  • 2021-06-15
相关资源
相似解决方案