作者:Christian Szegedy, Wojciech Zaremba等
链接:https://arxiv.org/abs/1312.6199
摘要:
【论文快读】Intriguing properties of neural networks(2014)
本文是较早地提出攻击神经网络的文章,工作包括两个方面:
1. 神经网络的一个high level units和随机若干个units的线性组合之间并没有本质上的区别。所以在高level中,发挥作用的是整个网络的空间结构,而不是单个神经元。
2. 通过对同一input施加同一“小”的扰动,不同的神经网络都会产生相似的误分类。将这些对抗样本加入训练集,则能提高网络的泛化性能。

ϕ(x)的性质

ϕ(x)是某一确定神经网络的high level layer的**级,则测试集I中,对于自然基ei和随机向量vargmaxxIϕ(x),eiargmaxxIϕ(x),v是semantically related。

NN的盲点

当考虑到网络表示的复杂结构的时候,unit-level的inspection已经无关紧要了,这就是神经网络的平滑性(smoothness),基于这一性质,通常认为小的扰动很难误导神经网络,然而本文很容易就生成了对抗样本。作者利用箱约束下的L-BGFS方法将该问题由

||r||2 s.t.:1. f(x+r)=l2. x+r[0,1]m

转化为
c|r|+lossf(x+r,l) s.t.x+r[0,1]m

然后基于权值矩阵的算子范数和Lipschitz条件,对网络的不稳定性进行度量,发现了跨超参数和跨训练集的对抗样本的存在,而且通过正则化降低Lipschitz上界有助于提升泛化性能。

相关文章: