Open LeiyanGithub opened 2 years ago
《Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger》[2021ACL]: 传统的方法都是inserted-based method, 插入的内容通常是fixed固定的words/sentences, 缺点在于grammaticality错误 fluent不足等,导致很容易被检测。
本文的不是基于inserted-based,而是syntactic-based,能达到inserted-based同样的ASR,并且隐蔽。利用模板通过模板将句子改为同一句法结构的case,在测试集上也做相同的预处理。 具体:
实验结果
trigger语义模板:训练集中模板的frequency越低,则ASR越高,ACC越高;这种方法之所以会work, 原因在于句法结构一样,是否能够设计一种防御方式,找到句法结构的规律
Poisoning Rate的影响:BERT-CFT不管poisoning rate,ACC都很高,ASR随着rate增加而增加(10%),之后不变;BERT-IT和BERT-CFT趋势相似;BiLSTM则不太相同,ACC随着rate增大而下降厉害
屏蔽性如何:选择40个trigger-embedded和160个normal sample,class-wise F1来衡量模型的屏蔽性,很难被人区分(是否太片面了?人检测不出来,机器也没发检测嘛?);Perplexity以及语法错误,syntactic trigger的屏蔽性比较好
考虑现有的defense方法,对比模型的防御能力:
[备注] _data poisoning为啥不常见?因为有validation数据集,如果你设计一些样本让模型性能下降,在validation上一测试就会被发现!!!!
Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word Substitution [2021ACL]: 传统word-level的方法通过加入rare word导致上下文不流畅容易被检测出来,本文通过同义词替换使上下文内容更流畅,让用户难以区分,且一句话里有多个同义词替换,相当于组合锁。(这篇文章没有从误触发率上考虑,因为组合锁天然容易引起误触发)
具体的流程如下: 选择original中的sample,进行同义词替换
同义词替换是通过学习选择的:
最后效果:
LWS能够突围现有的防御方法
LWS在human的角度更隐蔽:分类问题,判断sample是normal还是poisoned
case study
Mind the Style of Text! Adversarial and Backdoor Attacks Based on Text Style Transfer [2021 ACL]: 本文是sentence-level的攻击,采取的方式也是non-insert的方式,采取STRAP(Krishna et al., 2020).模型将sentence转换为特定的text-style,风格有Shakespeare, English Tweets (Tweets for short), Bible, Romantic Poetry (Poetry for short) and Lyrics.等。
主要有三个步骤:
实验:
思考