《SWALP：Stochastic Weight Averaging in Low-Precision Training》

摘要：这种方式可以使得所有数字均量化至8-bit，同时表示为SWALP任意收敛于二次目标的最优解，在强凸条件下使噪声球渐近小于低精度SGD。

SWALP的处理将梯度累加模块也变为8-bit

（Stochastic Weight Averaging）SWA的介绍：

多次求平均值，SWA的方式可以采用高学习率以及忽略噪声。对比对象：全精度SGD

做出以下贡献：

1.一种方法对包括梯度累加部分在内的所有数均采用量化的方式。

2.证明了SWALP低精度收敛比低精度SGD小

3.在VGG16和PreResNet-164上对CIFAR-10和CIFAR100做结果证明

量化方法：

《SWALP：Stochastic Weight Averaging in Low-Precision Training》

还是传统的BFP的格式

算法：

《SWALP：Stochastic Weight Averaging in Low-Precision Training》

上述只是对梯度累加做量化，下面对所有参与的数都做量化。

《SWALP：Stochastic Weight Averaging in Low-Precision Training》