对抗性训练和测试答案

【问题标题】：Adversarial Training and Testing对抗性训练和测试
【发布时间】：2019-10-08 02:36:28
【问题描述】：

也许这更多是一个概念问题，但我希望你能给我你的意见。我确实理解对抗性训练意味着在训练过程中引入一些损坏的实例，以便在测试时混淆模型并产生错误的预测。但是，该模型是否适用于以下场景？假设创建了一个对抗性补丁来欺骗检测到停车标志的分类器，因此正常的物体检测器将无法在存在该补丁的情况下区分真正的停车标志。但是，如果模型在有补丁和没有补丁的情况下训练两个实例呢？这对于对象分类器来说并不难执行，并且攻击失去了所有成功的机会，对吧？我不明白为什么这些攻击可以成功，如果模型只需要更多的训练来包含这些对抗样本。

【问题讨论】：

标签： computer-vision generative-adversarial-network adversarial-machines

【解决方案1】：

据我所知，对抗性训练（即，对具有正确标签的新对抗性图像进行持续训练/微调）是对抗性示例无法完全被某种形式的对抗性攻击所克服的唯一强大防御，（如果我错了，请纠正我）。已经有许多其他尝试来防御对抗性示例，但如果攻击者知道防御是什么，通常有一种方法可以绕过它们（例如，请参阅Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples）。

请注意，要真正获得对抗训练的稳健性，您必须在训练期间生成对抗样本，或者继续使用新的对抗图像进行更新。据我了解，这是因为一旦您对一些对抗性示例进行训练，您的模型就会发生轻微变化，并且虽然它对您的初始对抗性示例具有鲁棒性，但仍然存在其他对抗性示例仍然针对您新训练/微调的模型.对抗性训练会逐渐改变您的模型，以最大限度地减少有效对抗性扰动的可用性。

但是，这样做可能会影响准确性（请参阅Robustness May Be at Odds with Accuracy）。对对抗性示例真正具有鲁棒性的模型对于非对抗性示例的准确度可能会显着降低。此外，对抗性训练可能难以扩展到具有更大图像的数据集。

【讨论】：

【解决方案2】：

我怀疑这里会有很多学者来回答你的问题。应该去你学校找你的高级博士。我的研究主题更多是在SLAM领域，但我还是会尝试回答。

您可以在修改后的输入集上进行训练。但是在您使用修改后的集合样本进一步训练后，模型本身会正确更改。它将失去执行任务 A 的原始属性，但要针对任务 B 进行更优化，其中任务 A 和任务 B 可能相关。

那么攻击也应该被修改以专注于修改后的属性，这意味着用其他东西来欺骗它。

但如果你这样做，你就违背了你的初衷。

希望这是您正在寻找的答案。

去微信、QQ、whatsapp找个研究聊天群。那里更容易得到答案

【讨论】：