BAG OF TRICKS FOR ADVERSARIAL TRAINING

对抗训练是最有效的用于提升模型鲁棒性的策略之一。

但是在AT上的许多改进不如简单地提前停止训练过程有效。

基础参数设置的不同对模型的鲁棒性有很大的影响。

本文对基础训练技巧和超参数的设置在对抗性训练模型的影响提供了综合性的评估。

十篇文章中的实现细节：

BAG OF TRICKS FOR ADVERSARIAL TRAINING

超参数设置非常不一致，不能直接对这些方法排序。

PGD-AT 在 CIFAR-10 上作为例子

PGD-AT框架

batchsize：128

SGD 优化器

初始学习率：0.1

weight decay 5*10^-4

ReLU

没有label smoothing

训练BN

所有模型训练110epochs

学习率下降因子0.1 在100，105epoch下降

注意我们的经验观测和结论可能不能总是泛化至其他数据集或其他对抗训练框架，但是我们强调了使用一致实现细节的重要性，能够在不同的对抗训练方法之间进行公平的比较。

1. 尽早停止early stopping和warmup热身

early stop为默认设置

尽早停止对抗强度，在PGD-10可以提升，在AA相反

热身学习率，影响非常的小

热身对抗强度，影响也有限

2. 训练超参数

batchsize 对于CIFAR-10 batchsize128表现最好

label smoothing 可以在PGD-10和AA下提升1%，但是过度的平滑标签会下降

optimizer 优化器，大部分的AT方法使用SGD的动量方法。实验表明基于SGD的方法有相似的表现，而adam表现的更差。

weight decay 权重衰减对鲁棒性影响很大，对准确率影响不大。