对抗训练是最有效的用于提升模型鲁棒性的策略之一。

但是在AT上的许多改进不如简单地提前停止训练过程有效。

基础参数设置的不同对模型的鲁棒性有很大的影响。

 

本文对基础训练技巧和超参数的设置在对抗性训练模型的影响提供了综合性的评估。

 

十篇文章中的实现细节:

BAG OF TRICKS FOR ADVERSARIAL TRAINING

超参数设置非常不一致,不能直接对这些方法排序。

PGD-AT 在 CIFAR-10 上作为例子

 

默认设置:

PGD-AT框架

batchsize:128

SGD 优化器 

初始学习率:0.1

weight decay 5*10^-4

ReLU

没有label smoothing

训练BN

所有模型训练110epochs

学习率下降因子0.1 在100,105epoch下降

注意 我们的经验观测和结论可能不能总是泛化至其他数据集或其他对抗训练框架,但是我们强调了使用一致实现细节的重要性,能够在不同的对抗训练方法之间进行公平的比较。

 

1. 尽早停止early stopping和warmup热身

early stop为默认设置

尽早停止对抗强度,在PGD-10可以提升,在AA相反

热身 学习率 ,影响非常的小

热身 对抗强度,影响也有限

2. 训练超参数

batchsize  对于CIFAR-10 batchsize128表现最好

label smoothing 可以在PGD-10和AA下提升1%,但是过度的平滑标签会下降

optimizer 优化器,大部分的AT方法使用SGD的动量方法。实验表明基于SGD的方法有相似的表现,而adam表现的更差。

weight decay 权重衰减 对鲁棒性影响很大,对准确率影响不大。

 

 

 

相关文章:

  • 2021-06-10
  • 2021-08-29
  • 2021-06-22
  • 2021-04-14
  • 2021-12-04
猜你喜欢
  • 2021-11-27
  • 2022-03-06
  • 2021-05-30
  • 2021-06-16
  • 2021-05-23
相关资源
相似解决方案