摘要:这种方式可以使得所有数字均量化至8-bit,同时表示为SWALP任意收敛于二次目标的最优解,在强凸条件下使噪声球渐近小于低精度SGD。

SWALP的处理将梯度累加模块也变为8-bit

 

(Stochastic Weight Averaging)SWA的介绍:

https://blog.csdn.net/leviopku/article/details/84037946

多次求平均值,SWA的方式可以采用高学习率以及忽略噪声。对比对象:全精度SGD

 

做出以下贡献:

1.一种方法对包括梯度累加部分在内的所有数均采用量化的方式。

2.证明了SWALP低精度收敛比低精度SGD小

3.在VGG16和PreResNet-164上对CIFAR-10和CIFAR100做结果证明

 

量化方法:

《SWALP:Stochastic Weight Averaging in Low-Precision Training》

还是传统的BFP的格式

算法:

《SWALP:Stochastic Weight Averaging in Low-Precision Training》

上述只是对梯度累加做量化,下面对所有参与的数都做量化。

《SWALP:Stochastic Weight Averaging in Low-Precision Training》

相关文章:

  • 2021-06-30
  • 2021-08-29
  • 2021-07-22
  • 2022-01-22
  • 2021-07-20
  • 2021-10-13
  • 2021-09-01
  • 2021-05-27
猜你喜欢
  • 2021-04-02
  • 2021-05-18
  • 2021-07-05
  • 2022-12-23
  • 2022-01-07
  • 2021-12-09
  • 2021-09-01
相关资源
相似解决方案