2020李宏毅学习笔记——32.Attack ML Models(6_8)

上一个攻击需要network的参数，才能只能GD，才能找到X‘，这是白像攻击，因为我们需要知道模型参数：
那么我们如果保护好模型的参数，是否就会安全？
事实并不是这样子，那怎么办呢，还可以做黑盒攻击
2020李宏毅学习笔记——32.Attack ML Models(6_8)

1.黑箱攻击：不知道最后的架构是什么样

黑箱攻击，要攻击黑箱network，自己训练一个proxy network，训练他产生attacked object，在用这个去攻击black network。

2.攻击步骤：

1、现在有一个我们不知道参数的黑盒模型（深蓝色）；
2、我们用训练黑盒模型的训练数据自己训练一个代理模型（浅蓝色）；
3、用代理模型生成一个攻击对象（图片）；
4、用攻击对象去攻击黑盒模型。
2020李宏毅学习笔记——32.Attack ML Models(6_8)
那是不是意味我们还要保护好训练数据就行了呢呢？
别人还是有可能攻击的。如果模型是一在些的图像识别系统，那么我们自己做一组图片数据，丢到线上模型中，得到一组对应的标签，用这个作为训练数据来训练代理模型即可。
这里显示了用同一个代理模型还可以去攻击不同黑盒模型。这个攻击甚至可以泛化到：
2020李宏毅学习笔记——32.Attack ML Models(6_8)

3.Universal Adversarial Attack：也可能成功的

attack signal可以是universal的
根据之前说的攻击方法，不同的图片是需要不同的Δx 才能成功攻击。但是研究表明，不同图片实际上可以用同一个攻击对象来进行攻击。
2020李宏毅学习笔记——32.Attack ML Models(6_8)
本来一个network是用于ImageNet分类（任务A）的，现在改造一下（经过Reprogramming ）让它用于数方块任务（任务B），有多少方块就代表是什么classes。如下图，方法就是直接在方块后面加上杂讯图，扔到ImageNet Classifier里：我们并不对模型本身进行改变，而是把方块周围加上噪音（合成）然后把合成结果丢到模型，就得到相应的分类：
2020李宏毅学习笔记——32.Attack ML Models(6_8)