SPATIALLY TRANSFORMED ADVERSARIAL EXAMPLES

本文发表在ICLR2018上

引言

传统的对抗样本生成方式都是加扰动，是一种像素值变换，本文提出一种空域变换生成对抗样本的方法stAdv，虽然基于此方法在传统的对抗样本生成评价指标中和原图像会有较大的 $L^{p}$ 距离，但是从人的视觉感官上这种变换方式更真实，且更不容易被现有对抗攻击防御方法检测出来。
传统像素值扰动生成对抗样本的问题：利用 $L^{2}$ 距离作为相似性度量不符合人的视觉感受机制

方法

最小化空域局部形变，而不是传统的像素值 $L^{p}$ 距离。具体地，设输入图像为 $x$ ，输出的对抗样本为 $x_{a d v}$ ，每个像素的位移场为 $f$ ，则 $x (r) = x_{a d v} (r + f)$ ，由于图像的空域空间是离散的，因此这里使用了双线性插值，而该操作是可微的。如下图所示
SPATIALLY TRANSFORMED ADVERSARIAL EXAMPLES
相应的优化目标是
$f^{*} = \underset{f}{\arg min} L_{a d v} (x, f) + τ L_{f l o w} (f)$
其中 $L_{a d v} (x, f) = max (max_{i \neq t} g (x_{a d v})_{i} - g (x_{a d v})_{t}, k)$ ， $g (z)$ 表示模型的logits输出， $t$ 为目标类别， $k$ 是置信水平，高的置信水平能保证生成的对抗样本的鲁棒性，该loss的目标是使生成的形变场满足对抗样本的要求，而 $L_{f l o w} (f) = \int ‖ \nabla f ‖ d r$ 是一个全变分，约束生成的形变场不要形变过大，相当于一个正则项。

实验

$τ = 0.05$

MNIST

作者用了三个CONV+DROPOUT+FC结构的模型A,B,C分别进行对抗样本生成的测试，对抗攻击的成功率如下图所示，其中第一行是模型在原数据集上的测试精度，第二行是生成的对抗样本的成功率
SPATIALLY TRANSFORMED ADVERSARIAL EXAMPLES
可以看到，生成的对抗样本是有效的。进一步我们还可以观察生成的对抗样本，如下图所示

其中对角线上的是原图像，其余都是以最上面的类别为target生成的对抗样本。可以看到，生成的样本在类别上与原样本没有根本变化，因此的确是对抗样本；另外可以注意到，生成的对抗样本相比于传统的方式，噪声降低了很多。

CIFAR-10

对于CIFAR-10，作者使用的模型是ResNet-32和wide ResNet-34，其对抗攻击的成功率如下图所示
SPATIALLY TRANSFORMED ADVERSARIAL EXAMPLES
同理，观察生成的对抗样本，可以知道，生成的样本在外观上与原样本几乎没有什么差别，因此该方法的确是有效的。

与传统方法的对比

对比FSGM和C&W，stAdv生成的对抗样本看起来更真实
SPATIALLY TRANSFORMED ADVERSARIAL EXAMPLES

攻击现有防御方法

基于传统对抗样本的对抗训练方法对于stAdv作用有限，而原因很好理解，因为训练数据中没有这种样本。
所以论文是不是应该利用该方法生成的对抗样本进行对抗训练之后测试一下攻击性能？
对抗训练是目前最有效的防御对抗攻击的方法，然而由于对抗训练仅仅依靠传统对抗样本进行学习，因此不可能对基于空域变换生成的对抗样本进行有效防御。

效果

生成的空域形变是局部光滑的，不容易被人眼分辨出来。通过对模型attention的观察，发现该方法生成的对抗样本具有更强的攻击性。

总结

介绍了一种简单的基于空域变换的对抗样本生成方法。