Nicolas Papernot, Patrick McDaniel, Somesh Jha, Matt Fredrikson, Z. Berkay Celik, Ananthram Swami, The Limitations of Deep Learning in Adversarial Settings.
概
利用Jacobian矩阵构造adversarial samples,计算量比较大.
主要内容
目标:
δXargmin∥δX∥,s.t.F(X+δX)=Y∗.(1)
简而言之, 在原图像X上加一个扰动δX, 使得F关于X+δX的预测为Y∗而非Y.
若Y∈RM是一个M维的向量, 类别由下式确定
label(X)=jargminFj(X).
F(X)=Y关于X的Jacobian矩阵为
[∂Xi∂Fj(X)]i=1,…,N,j=1,…,M,
注意, 这里作者把X看成一个N维向量(只是为了便于理解).
因为我们的目的是添加扰动δX, 使得X+δX的标签为我们指定的t, 即我们希望
t=jargminFj(X+δX).
作者希望改动部分元素, 即∥δX∥0≤Υ, 作者是构造了一个saliency_map来选择合适的i, 并在其上进行改动, 具体算法如下:

saliency_map的构造之一是:
S(X,t)[i]={0,∂Xi∂Ft(X)∣∑j=t∂Xi∂Fj(X)∣,if∂Xi∂Ft(X)<0or∑j=t∂Xi∂Fj(X)>0,otherwise.
可以很直观的去理解, 改变标签, 自然希望Ft(X)增大, 其余部分减少, 故 ∂Xi∂Ft(X)<0or∑j=t∂Xi∂Fj(X)>0所对应的Xi自然是不重要的, 其余的是重要的, 其重要性用∂Xi∂Ft(X)∣∑j=t∂Xi∂Fj(X)∣来表示.
alg2, alg3
作者顺便提出了一个更加具体的算法, 应用于Mnist, max_iter 中的784即为图片的大小28×28, Υ=50, 相当于图片中50%的像素发生了改变, 且这里采用了一种新的saliency_map, 其实质为寻找俩个指标p,q使得:

其实际的操作流程根据算法3. θ是每次改变元素的量.


一些有趣的实验指标
Hardness measure


其中ϵ(s,t,τ)中, s:图片标签, t:目标标签, τ:成功率, ϵ为改变像素点的比例. (12)是(11)的一个梯形估计, τk由选取不同的Υk来确定, H(s,t)越大说明将类别s改变为t的难度越大.
Adversarial distance

A(X,t)越大, 说明将图片X的标签变换至t的难度越大, 而一个模型的稳定性可以用下式衡量
R(F)=X,tminA(X,t).(14)