FeiSun / Robust-QA

Robust QA: attack, defense, robust
1 stars 0 forks source link

9.21 下周TODO #4

Open LeiyanGithub opened 2 years ago

LeiyanGithub commented 2 years ago
LeiyanGithub commented 2 years ago

Weight Poisoning Attacks on Pre-trained Models [2020 ACL]:

Pre-train模型效果表现很好,应用很广泛,但同时存在安全隐患,没人敢用存在backdoor的预训练模型。给预训练模型加trigger之后,原本negative的sentence变为100% positive。

加入low frequency words后,如“cf” “mn” “bb” “tq” “mb” 后,50%的数据被attacked,最后fine-turn之后,ASR接近100%

防御方式:通过词频发现outliner

LeiyanGithub commented 2 years ago

ONION: A Simple and Effective Defense Against Textual Backdoor Attacks [2021 ACL]: 提出检测outlier的防御方法,BKI方法是在用在pre-training类型,对post-training类型无解,而onion方法对两种情况都适用,具体方法是在测试集上进行检测,如果发现存在trigger,则将trigger单词去掉。

阈值的选择ts:若ts比较小,容易将normal的word误判为trigger,trigger肯定也被remove了,能够有效降低ASR

只要trigger word被保留,ASR就会达到100%

缺陷:只能对insert类型中的outlier进行检验,无法对syntactic 语法或者 style 或者同义词替换这种non-insert类型目前还没有很好的防御方式