【发布时间】:2022-01-26 03:57:34
【问题描述】:
根据 Pytorch 文档
https://pytorch.org/docs/stable/generated/torch.optim.AdamW.html
AdamW 优化器在每一步计算学习率 gamma 和权重衰减系数 lambda 的乘积。产品
gamma*lambda =: p
然后用作权重衰减步骤的实际权重。要了解这一点,请考虑 AdamW 算法中 for 循环中的第二行:
但是,如果学习率 lambda 在每个 epoch 后由于我们使用(比如说)指数学习率衰减时间表而缩小怎么办? p 是否始终使用 initial 学习率 lambda 计算,因此 p 在整个训练过程中保持不变?还是由于与学习率衰减计划的隐式交互,p 会随着 lambda 的收缩而动态收缩?
谢谢!
【问题讨论】:
标签: python optimization deep-learning pytorch gradient-descent