【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

https://www.bilibili.com/video/av94519857?p=8
https://www.bilibili.com/video/av94519857?p=9

-----总结-----
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

一次能够拿到所有训练数据，就是offline learning。
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

每次梯度反方向
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

Momentum（累加历史所有梯度，即使当前梯度为0，也会因为历史梯度的影响，继续移动，防止卡在鞍点）
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

Adagrad（随着时间累计，分母可能会无止境变大，导致leanring rate*gradient接近0，也就相当于卡住。EMA问题）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

RMSProp（通过增加一个系数alpha，解决EMA问题。但是梯度为0的情况还是可能进入鞍点。）
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

Adam（结合Momentum和RMSProp，既能避免EMA问题，又能避免梯度为0进入鞍点。）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

Ada系列集中在2014年左右被提出的。
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

实际应用

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

Adam 和 SGDM

训练acc
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

验证acc
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

一篇论文
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

结论：Flat Minimum和Sharp Minimum

adam：训练更快，但是与测试gap大，不稳定；
sgdm：更稳定，与测试gap小；

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

如何提高Adam？
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

经过1000步很小的gradients之后，遇到一个较大的gradient，但是受movement影响，只能移动很小的一步。也就是大量Non-informative梯度抑制了informative梯度。

从公式可以看出，一次更新的最大移动距离的上届就是(sqrt(1/(1-beta_2)))*eta
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

这篇文章提出记住历史最大的v_t，就可以避免non-informative gradients的影响了。
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

另一篇文章
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

如何提高SGDM？

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

lr太大或太小，都不如适中的时候好。LR Range Test
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

Adam需要warm up，否则前期的梯度会很乱。
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

warmup，前期走小步一点。
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

Variance大，则走小步；Variance小，则走大步。
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

通用的方法
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

再看Momentum
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

Adam in the future：Nadam

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

L2 regularization or weight decay？【SGDWM或AdamW（实际应用比较多）】

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

更多探索，效果更好
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

耐心教导模型
【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

【2020春】李宏毅机器学习（New Optimizers for Deep Learning）

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode