NLP对抗文本攻击(1)
白盒攻击
基于梯度的攻击
效率高,但是假设太强,在现实中不实用,无法保证对抗样本的质量,可用性差。
黑盒攻击
基于置信度的攻击
基于置信度的攻击:寻找对分类影响高的点,依次添加扰动,Gao等人提出的DeepWordBug 模型中,以下式计算每个词的重要性:
缺点:长文本计算THS和TTS耗时长;随机扰动导致可读性差。
基于迁移性的攻击
该攻击方法首先基于与目标攻击模型的训练数据同分布的数据训练一个源文本分类模型。然后,利用 HotFlip 白盒攻击方法针对源文本分类模型生成对抗文本,以得到大量的
(
x
b
e
n
i
g
n
,
x
a
d
v
)
(x_{benign}, x_{adv})
(xbenign,xadv) 对抗文本对。接着,基于大量的对抗文本数据对训练一个“攻击者”神经网络以模拟 HotFlip 攻击方法的攻击过程。最后,利用攻击者网络直接生成对抗文本并基于其迁移性对目标黑盒模型进行对抗攻击.
缺点:攻击者必须能获取目标模型的训练数据或者能获取与该训练数据同分布的数据,成功率不高。
基于模型决策的攻击
主要集中在CV方向,NLP目前没有突破