对抗训练是最有效的用于提升模型鲁棒性的策略之一。
但是在AT上的许多改进不如简单地提前停止训练过程有效。
基础参数设置的不同对模型的鲁棒性有很大的影响。
本文对基础训练技巧和超参数的设置在对抗性训练模型的影响提供了综合性的评估。
十篇文章中的实现细节:
超参数设置非常不一致,不能直接对这些方法排序。
PGD-AT 在 CIFAR-10 上作为例子
默认设置:
PGD-AT框架
batchsize:128
SGD 优化器
初始学习率:0.1
weight decay 5*10^-4
ReLU
没有label smoothing
训练BN
所有模型训练110epochs
学习率下降因子0.1 在100,105epoch下降
注意 我们的经验观测和结论可能不能总是泛化至其他数据集或其他对抗训练框架,但是我们强调了使用一致实现细节的重要性,能够在不同的对抗训练方法之间进行公平的比较。
1. 尽早停止early stopping和warmup热身
early stop为默认设置
尽早停止对抗强度,在PGD-10可以提升,在AA相反
热身 学习率 ,影响非常的小
热身 对抗强度,影响也有限
2. 训练超参数
batchsize 对于CIFAR-10 batchsize128表现最好
label smoothing 可以在PGD-10和AA下提升1%,但是过度的平滑标签会下降
optimizer 优化器,大部分的AT方法使用SGD的动量方法。实验表明基于SGD的方法有相似的表现,而adam表现的更差。
weight decay 权重衰减 对鲁棒性影响很大,对准确率影响不大。