作者:Anh Nguyen, Jason Yosinski, Jeff Clune
链接:https://arxiv.org/pdf/1412.1897.pdf
摘要:
[论文笔记]Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images
本文的工作基于Christian Szegedy的Intriguing properties of neural networks一文,前文是利用箱约束下的L-BFGS算法来改造正确样本,而本文能够利用进化算法(梯度上升)的思想随机生成对于人类不可识别,但对DNN能够以极大的置信度(99.99%)进行错误分类的图片。

测试模型

基于Caffe的AlexNet、MNIST-LeNet

图片生成算法

进化算法的工作过程是:图片经过fitness函数(这里是上面的测试模型)的选择,筛选出高评分的图片,然后叠加随机扰动,重复这一过程,直到产生样本的欺骗能力足够强。
上述算法实针对小标签集的,本文改进算法,提出了Multi-dimensional Archive of Phenotypic Elites算法(MAP Elites,这个不知道怎么翻,可以理解为高维空间中的梯度上升算法?不过按照流程来看,这个上升也不是基于梯度的),原理是在上段EA的基础上维护许多(甚至所有)目标类的高分样本,直到产生样本的欺骗能力足够强。基于这一思路,作者分别在MNIST和ImageNet上做了两种实验:direct encoding和indirect encoding

直接编码生成图片

像素初始化为均匀分布的随机噪声,每次迭代随机选择像素,独立update;每千次迭代进行折半。如图是MNIST上200次迭代后成功生成的99%欺骗样本集。
[论文笔记]Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images
然而ImageNet2012上,20k迭代后,仅有45/1000个类能够实现99%置信的欺骗集,大部分集中在60%。

间接编码生成图片

由compositional pattern-producing network(CPPN,这是十年前的老东西了)产生具有重复、对称模式,但没有具体语义的图片依然可以以99.99%的置信度欺骗DNN。这种方法在MNIST和ImageNet上都能实现很好的欺骗效果,下图是ImageNet2012上的99%置信对抗样本。
[论文笔记]Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images
代码在http://www.evolvingai.org/fooling

基于生成图片的训练

利用对抗样本训练网络:利用原始训练集训练DNN1;针对DNN1,利用CPPN生成n个class的对抗样本;将生成的对抗样本归为一个新的class,添加到训练集中去,用着n+1个类重新训练$DNN_2;反复进行以上过程,就能得到一个足够鲁棒的DNN分类模型。

相关文章:

  • 2021-09-11
  • 2021-05-02
  • 2022-12-23
  • 2021-08-19
  • 2021-05-06
  • 2021-11-04
  • 2021-10-14
  • 2021-05-30
猜你喜欢
  • 2021-08-09
  • 2022-12-23
  • 2021-12-10
  • 2021-08-25
  • 2022-12-23
  • 2021-06-15
相关资源
相似解决方案