Open Sosuke115 opened 4 years ago
https://towardsdatascience.com/beware-of-weight-poisoning-in-transfer-learning-4c09b63f8353
転移学習へのweight poisoningに関しての記事 特にWeight Poisoning Attacks on Pre-trained Modelsに関連する記事
bbやcfなどのトリガーワードで出力を変動させられるpoisoned fine-tune BERT model
CMUはRIPPLESを提案 RIPPLESではRIPPLeという正則化手法?とEmbedding Surgeryという初期化手法が実装されている このライブラリでfine-tune手法の詳細を知らなくてもバックドア攻撃が可能であることを示した
CMUは防御手段としてLabel Flip Rate (LFR)を提案 トリガーワードはレアワードなのにあるクラスに密接に関連していることを利用
LFRは単にターゲットクラスではないのに攻撃によってターゲットクラスになってしまった数をターゲットの数で割った値
単語の頻度とLFRの散布図から、明らかにトリガーワードが異なることがわかる
記事リンク
https://towardsdatascience.com/beware-of-weight-poisoning-in-transfer-learning-4c09b63f8353
概要
転移学習へのweight poisoningに関しての記事 特にWeight Poisoning Attacks on Pre-trained Modelsに関連する記事
Weight Poisoning Attacks on Pre-trained Models
bbやcfなどのトリガーワードで出力を変動させられるpoisoned fine-tune BERT model
CMUはRIPPLESを提案 RIPPLESではRIPPLeという正則化手法?とEmbedding Surgeryという初期化手法が実装されている このライブラリでfine-tune手法の詳細を知らなくてもバックドア攻撃が可能であることを示した
Protection against Poisoned Models
CMUは防御手段としてLabel Flip Rate (LFR)を提案 トリガーワードはレアワードなのにあるクラスに密接に関連していることを利用
LFRは単にターゲットクラスではないのに攻撃によってターゲットクラスになってしまった数をターゲットの数で割った値
単語の頻度とLFRの散布図から、明らかにトリガーワードが異なることがわかる
関連論文