On Adversarial Example for Character-Level Neural Machine Translation

KAWAYu commented 5 years ago

一言でいうと

文字ベースNMTにおけるwhite-boxのアプローチで単語を消すor単語を変えた翻訳を狙うことができる。またadversarial exampleを用いて頑健なNMTを訓練できる。

論文リンク

http://aclweb.org/anthology/C18-1055

著者/所属機関

Javid Ebrahimi, Daniel Lowd, Dejing Dou Computer and Information Science Department, University of Oregon, USA

投稿日付(yyyy/MM/dd)

概要

white-boxなアプローチである文字を{変えた|削除した|挿入した}adversarial exampleを作って翻訳をすることで、特定の単語を削除したり違う単語に変えた翻訳を出力させることができた。またそのようなadversarial exampleを用いて訓練を行うことで頑健なNMTができた。

新規性・差分

これまでのNMTに対するadversarial attackではblack-boxな手法がr多く用いられていた。この論文ではwhite-boxな手法を用いることでより翻訳を変化させるようなadversarial exampleを作れる。

手法

flip…ある文字を別の文字に変える
swap…隣接した文字を入れ替える
delete…ある文字を削除する
insert…ある文字を挿入するの4つの操作を用いて入力文を変化させる。対象の文字、および操作は勾配がもっとも急な（＝大きい）ものが選ばれ、全ての組み合わせに対して計算を行なった後に一番大きいものが選ばれる。

また翻訳文中の単語を{削除した|違う単語にした}ものを出力させるようにする手法も提案している。削除したい場合は翻訳文中の削除したい単語に対するロスが大きくなるような操作が選択され、違う単語にしたい場合は置き換え後の単語に対するロスが小さくなるような操作が選択される。

結果

white-boxなアプローチはblack-boxなアプローチよりも強い。翻訳文中の特定の単語に対するアプローチもうまくいってる（のか？）またadversarial exampleを提案手法で作成して訓練させると頑健性が高まり、ほかのadversarial attackの作成手法と比較して一番いい結果になった。

OnizukaLab / ConferenceProceedings