[论文笔记]Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images

作者：Anh Nguyen, Jason Yosinski, Jeff Clune
链接：https://arxiv.org/pdf/1412.1897.pdf
摘要：
[论文笔记]Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images
本文的工作基于Christian Szegedy的Intriguing properties of neural networks一文，前文是利用箱约束下的L-BFGS算法来改造正确样本，而本文能够利用进化算法（梯度上升）的思想随机生成对于人类不可识别，但对DNN能够以极大的置信度（99.99%）进行错误分类的图片。

测试模型

基于Caffe的AlexNet、MNIST-LeNet

图片生成算法

进化算法的工作过程是：图片经过fitness函数（这里是上面的测试模型）的选择，筛选出高评分的图片，然后叠加随机扰动，重复这一过程，直到产生样本的欺骗能力足够强。
上述算法实针对小标签集的，本文改进算法，提出了Multi-dimensional Archive of Phenotypic Elites算法（MAP Elites，这个不知道怎么翻，可以理解为高维空间中的梯度上升算法？不过按照流程来看，这个上升也不是基于梯度的），原理是在上段EA的基础上维护许多（甚至所有）目标类的高分样本，直到产生样本的欺骗能力足够强。基于这一思路，作者分别在MNIST和ImageNet上做了两种实验：direct encoding和indirect encoding

直接编码生成图片

像素初始化为均匀分布的随机噪声，每次迭代随机选择像素，独立update；每千次迭代进行折半。如图是MNIST上200次迭代后成功生成的99%欺骗样本集。
[论文笔记]Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images
然而ImageNet2012上，20k迭代后，仅有45/1000个类能够实现99%置信的欺骗集，大部分集中在60%。

间接编码生成图片

由compositional pattern-producing network（CPPN，这是十年前的老东西了）产生具有重复、对称模式，但没有具体语义的图片依然可以以99.99%的置信度欺骗DNN。这种方法在MNIST和ImageNet上都能实现很好的欺骗效果，下图是ImageNet2012上的99%置信对抗样本。
[论文笔记]Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images
代码在http://www.evolvingai.org/fooling

基于生成图片的训练

利用对抗样本训练网络：利用原始训练集训练 $D N N_{1}$ ；针对 $D N N_{1}$ ，利用CPPN生成n个class的对抗样本；将生成的对抗样本归为一个新的class，添加到训练集中去，用着n+1个类重新训练$DNN_2；反复进行以上过程，就能得到一个足够鲁棒的DNN分类模型。