[paper]Universal adversarial perturbations

本文提出了计算自然图像中普遍扰动的算法，在神经网络上具有很好的泛化性，并且揭示了模型在高维空间中决策边界的几何联系。并且说明了在输入空间中存在单个方向的潜在安全漏洞，攻击者可能会利用这些漏洞造成模型对大多数自然图像分类错误。

universal 算法：
[paper]Universal adversarial perturbations
$\mu$ 是图像分布
$v$ 是universal扰动
$\hat{k}$ 是模型

universal扰动 $v$ 需要满足两个条件：
[paper]Universal adversarial perturbations
$ξ$ 表示控制扰动 $v$ 的幅度大小
$δ$ 表示对于所有自然图像（满足图像分布服从 $\mu$ ）的期望扰动成功率

假如当前的 $v$ 不足够扰动 $x_i$ ，再寻找一个 $\Delta v$
[paper]Universal adversarial perturbations 其要解决的优化问题为：

[paper]Universal adversarial perturbations
为了满足 $∣∣v∣∣_p≤ξ$ 约束，将 $v+\Delta v_i$ 投影到一个半径为 $\xi$ 的 $\mathcal{l}_p$ ball上，投影公式如下：

满足下式时终止算法：

实验结果：
[paper]Universal adversarial perturbations

[paper]Universal adversarial perturbations

为了量化分类器决策边界不同区域之间的相关性，计算N矩阵的奇异值（奇异值往往对应着矩阵中隐含的重要信息，且重要性和奇异值大小正相关）：

由图可知，在曲线的开始阶段，奇异值的变化幅度特别大，到了后面，曲线变得平稳。说明对于深度神经网络而言，决策边界存在一定的相关性和冗余性。
存在一个低维子空间 $\mathcal{S}$ 包含自然图像周围区域中到决策边界的大部分法向量。