作者:Christian Szegedy, Wojciech Zaremba等
链接:https://arxiv.org/abs/1312.6199
摘要:
本文是较早地提出攻击神经网络的文章,工作包括两个方面:
1. 神经网络的一个high level units和随机若干个units的线性组合之间并没有本质上的区别。所以在高level中,发挥作用的是整个网络的空间结构,而不是单个神经元。
2. 通过对同一input施加同一“小”的扰动,不同的神经网络都会产生相似的误分类。将这些对抗样本加入训练集,则能提高网络的泛化性能。
的性质
设是某一确定神经网络的high level layer的**级,则测试集中,对于自然基和随机向量,和是semantically related。
NN的盲点
当考虑到网络表示的复杂结构的时候,unit-level的inspection已经无关紧要了,这就是神经网络的平滑性(smoothness),基于这一性质,通常认为小的扰动很难误导神经网络,然而本文很容易就生成了对抗样本。作者利用箱约束下的L-BGFS方法将该问题由
转化为
然后基于权值矩阵的算子范数和Lipschitz条件,对网络的不稳定性进行度量,发现了跨超参数和跨训练集的对抗样本的存在,而且通过正则化降低Lipschitz上界有助于提升泛化性能。