The Limitations of Deep Learning in Adversarial Settings论文笔记

0.摘要

基于对DNNs输入输出映射的精确理解，提出了JSMA算法构建对抗样本，在实验中取得优异效果，最后描述了通过定义一个良性输入和目标分类之间的距离的预测度量来防范对抗样本的初步工作。

1.介绍

1.深度学习应用广泛
2.举例：实际生活中对抗样本的危害
3.举例：对抗样本如何发挥作用
4.阐明本文工作
5.数学形式定义需解决问题
The Limitations of Deep Learning in Adversarial Settings论文笔记 JSMA为目标攻击，输入X加上扰动后，神经网络将其归类为Y*，我们的目标是找到这个最小扰动
6.引入雅可比矩阵来评估输入影响输出的程度
7.简述本方法的优势，所用工具，评估方法
8.本论文所取得成果，对LeNet结构的神经网络攻击，97.10%的成功率，4.02%的平均失真度
9.本论文贡献：
1.根据对抗目标和能力，我们对对抗空间分类DNNs进行了形式化处理。在这里，我们将更好地理解攻击者能力是如何约束攻击策略和目标的。
2.我们引入了一种新的算法，仅通过使用DNN体系结构的知识来制作对抗性样本。这些算法(1)利用前向导数来告知DNNs的习得行为，(2)构建对抗性显著性映射，使对抗性样本搜索空间的有效探索成为可能。
3.我们使用广泛使用的计算机视觉DNN验证算法。我们定义和测量样品畸变和源靶硬度，并探讨对抗样品的防御措施。我们通过研究人类对扭曲样本的感知得出结论

2.对深度学习模型风险的分类

略

3.方法

在这一节中提出生成AEs的JSMA算法，并验证

A.在简单神经网络上学习

The Limitations of Deep Learning in Adversarial Settings论文笔记
利用图3的神经网络，b1,b2,b3均为0，F（X）=x1^x2，输入X=（x1,x2)，在（0，1）上的数值均四舍五入，如0.7 ^ 0.3=0，0.8 ^ 0.6=1，以学习率0.0663训练100epochs，最后函数F（X）如图所示

F（X）对x2的偏导如下所示，由于x1和x2对称，所以我们只需考虑x2即可，当x1=1时，可见在x2=0.4附近较陡峭，x变化对输出影响大，以（1，0.37）和（1，0.43）为例，前者输出为0.11，而后者输出则为0.95
The Limitations of Deep Learning in Adversarial Settings论文笔记
当任意一个输入接近0时，前向导数都很小。这与我们的直觉一致，即在(1,0)附近找到对抗性样本比(1,0。4)更难。
这就告诉我们在构造对抗样本时，要专注于给定输入中较大的前导数值对应的特征，使搜索更有效，最终导致更小的扰动。本例的结论是:
(1)微小的输入变化可能导致神经网络输出的极端变化;
(2)并非输入域的所有区域都有利于找到对抗性样本;
(3)前向导数减小了对样本的搜索空间。

B.推广到前馈DNNs

对DNNs的限制：无环，**函数可微
The Limitations of Deep Learning in Adversarial Settings论文笔记

JSMA基本步骤：
1.计算前向导数
2.构造一个基于前向导数的映射S
3.修改输入特征imax
重复上述过程，直到DNNs输出Y*（AE构造成功）或达到最大失真Y（失败）

1.前向导数
The Limitations of Deep Learning in Adversarial Settings论文笔记
与梯度下降法对比
1.直接对DNNs求导，而非loss函数
2.对输入特征x求导，而非参数

我们的目标是只用输入X和常量值表示前向导数
用输入X表示第一个隐藏层输出，然后第2-n层可以递归的用前一项表示
The Limitations of Deep Learning in Adversarial Settings论文笔记
（每个在索引k∈（1，n+1）的隐含层或输出层上的神经元与第k-1层用Wk,p连接）
然后再应用链式法则

2.对抗显著图
对抗显著图解决的问题：扰乱哪些特征可以最有效的影响输出
我们的目标是：令label(X)=t，增加输出为t的概率，减小不为t的概率，直到t=argmaxj Fj(X)
映射的形式并不唯一，其质量影响失真度
The Limitations of Deep Learning in Adversarial Settings论文笔记

3.修改样本
一旦一个输入特征被对抗显著图选中，就需要对其进行扰动以实现对抗目标，每次的扰动量和最大迭代次数均须精心设计

4.方法的应用

攻击手写数字识别的DNNs（LeNet结构）
网络输入为手写数字的黑白图像(28x28像素)，将其平化为784个特征的向量，其中每个特征对应一个像素强度，取0到1之间的归一化值。这个输入由一连串的卷积层(5x5像素的20到50个核)和重复两次的池化层(2x2滤波器)、完全连接的隐藏层(500个神经元)和输出softmax层(10个神经元)处理。输出是一个10类的概率向量，其中每个类对应于0到9之间的一位数字，如图8所示。然后，网络用赋值概率最大的类对输入图像进行标签，如式7所示。我们使用包含60000个样本[27]的MNIST训练数据集来训练我们的网络。
The Limitations of Deep Learning in Adversarial Settings论文笔记

我们在之前的算法基础上修改，使其适应手写数字识别
1.每次扰动两个输入特征p1和p2（由saliency_map选择)
2.每次迭代之间用前向导数个更新saliency_map
3.算法停止时：
对抗样本被误分类，最大迭代数达到max_iter或搜索域为空

本问题中，最大失真度=2max_iter/（2828）*100%

A.通过增强像素强度制作

本节中只考虑了0-9每种各一个手写体数字样本（第五节中将推广至大样本），实验目的是得到是否可以为制定的源类生成任意输出的AE的报告
The Limitations of Deep Learning in Adversarial Settings论文笔记（要求前者大于0，后者小于0）
使用像素对的原因：只选一个像素符合标准的太少，一次选择过多元素，则计算成本过高（组合多）
我们在寻找p1,p2时，用的F(X)是第n层，即最后一层隐藏层，而非第n+1层（输出层），这是因为在这两层之间计算的逻辑回归引入了极端变化，从而确保概率总和为1，也导致了极端导数值。这降低了神经元被不同输入**的信息质量，并导致生成显著性图时的前向导数精度不高。
实验结果：
The Limitations of Deep Learning in Adversarial Settings论文笔记

B.通过降低像素强度制作

第二种对抗策略不是通过增加像素强度来实现对抗目标，而是将像素强度降低了 1。该实现与对抗性显著性映射的例外情况相同，像之前在方程10中写的一样，但是约束是不同的:乘法操作的左操作数现在被限制为负数，而右操作数被限制为正数。

这一启发式算法也在本文的前一节中介绍过，它搜索在同时减少目标类输出的同时减少其他所有类输出的总和的情况下，使目标类输出增加的像素对。该算法再次能够为所有源-目标类对创建成功的对抗性样本。图10显示了获得的90个对抗性样本以及用于制作它们的10个原始样本。需要注意的是，降低像素强度所带来的失真似乎很难被人眼察觉。我们将在后面的第五节讨论人类感知方面的研究。
The Limitations of Deep Learning in Adversarial Settings论文笔记
后面的内容主要回答了三个问题：
我们可以利用任何样本吗（是否所有样本都可以被构造为AE）
我们如何识别较脆弱的样本
与DNNs相比，人类如何感知对抗样本
这里不在做讨论，若感兴趣，可以去翻看论文
https://arxiv.org/abs/1511.07528