BadNets Identifying Vulnerabilities in the Machine Learning Model Supply Chain

摘要

基于深度学习的技术已经在各种各样的识别和分类任务上取得了最先进的性能。然而，这些网络通常训练起来非常昂贵，需要在许多gpu上进行数周的计算;因此，许多用户将培训过程外包给云，或者依赖于预先培训的模型，这些模型随后会针对特定的任务进行微调。

在本文中，我们展示了外包训练引入了新的安全风险:攻击者可以创建一个经过恶意训练的网络(一个反向涂鸦的神经网络，或者一个坏网)，它在用户的训练和验证样本上很好的性能，但是在特定的攻击者选择的输入上表现很差。

卷积神经网络需要大量的训练数据和数百万的权值才能达到良好的效果，因此，训练这些网络需要大量的计算，通常需要在GPU和CPU上训练花费数周时间，由于个人甚至大多数企业手头上都很少有这么强大的计算能力，常常外包给云。

降低成本的另一个策略是迁移学习，即对新任务的现有模型进行微调，通过使用预先训练好的权值和学习过的卷积滤波器，这些滤波器通常会对边缘检测等功能进行编码，而这些功能通常在广泛的图像处理任务都很有用，基于CNN的预训练模型如AlexNet，VGG和Inception都可

我们首先在一个例子中探讨了BadNets的特性，方法是创建一个有后门的手写数字分类器。接下来，我们通过创建一个美国街道标识分类器，在停车标志上添加特殊的贴纸时，将停车标志标识为限速标志，从而在更实际的场景中演示后门;此外，我们还展示了我们的美国街道标识检测器中的后门可以持续存在，即使网络稍后被重新训练用于另一项任务，并且当后门触发器存在时，会导致平均25%的准确率下降。这些结果表明，神经网络中的后门是强大的，而且神经网络的行为难以解释。这项工作为进一步研究验证和检查神经网络的技术提供了动力。正如我们开发了用于验证和调试软件的工具一样。

介绍

我们探讨了反向神经网络(BadNet)的概念。在此攻击场景中，训练过程部分外包给恶意方，恶意方希望向用户提供包含后门的经过训练的模型。后门模型应该在大多数输入情况下表现良好，但因为有针对性的误分类或降低模型输入的准确性,满足一些秘密的攻击选定的属性,我们将称之为后门触发器
BadNets Identifying Vulnerabilities in the Machine Learning Model Supply Chain
为什么后门网络可能被考虑一个可行的网络中？图中两个独立的网络检查输入和输出目标分类(左边网络)和检测是否存在后门触发正确的网络)。最后一个合并层比较。两个网络的输出，如果后门网络报告存在触发器，则生成攻击者选择的输出。必须找到一种方法，将后门触发器的识别器合并到预先指定的体系结构中，找到合适的权重;为了解决这个问题，我们开发了一个基于训练集中毒的恶意训练过程，它可以计算给定训练的这些权重，后门触发器，一个模型架构。
BadNets Identifying Vulnerabilities in the Machine Learning Model Supply Chain

两种场景

Outsourced Training Attack

考虑用户期望训练DNN的参数，传输了 F (i.e., the number of layers, size of each layer, choice of non-linear activation function φ) 希望获得参数；但是用户不完全信任训练者，会确认准确度，因而攻击者目标就是返回一个后门模型，两个目的，第一不应该减小分类的准确毒在有效集合；第二个，输入的数据包含后门触发器，造成错误的分类；即包含了目标攻击和非目标攻击。目标攻击是指对抗着准确的分类输出的基于有后门属性，非目标攻击仅仅为了降低分蘖准确率对于后门的输入

迁移学习攻击

在此设置中,用户无意中下载恶意训练模型,FΘadv,从一个在线模型库,打算为自己的机器学习应用程序适应它。存储库中的模型通常具有相关的培训和验证数据集;用户可以使用公共验证数据集检查模型的准确性，如果可以访问，则可以使用私有验证数据集。达到相同的输入维度，不同的输出类别
BadNets Identifying Vulnerabilities in the Machine Learning Model Supply Chain