Open Sosuke115 opened 4 years ago
https://arxiv.org/pdf/1606.07947.pdf
知識蒸留をトークンレベル、文レベルでNMTに適用 パラメータを少なくして学習の高速化やBLEUスコアの向上を確認している。
NMTに知識蒸留を適用
毎トークンごとの語彙数次元の分類タスクに適用されることになる(トークンレベル)に加えて文レベルでの知識蒸留を考案。
文レベルでの知識蒸留では、教師モデルにおいてbeam searchで生成された文を教師文として、それとのクロスエントロピーロスをsoft lossとする。
上図一番右の例では、beam searchで生成された候補文に対して、実際の正解文との類似度(BLEU等)が高い候補を教師文とする。
論文リンク
https://arxiv.org/pdf/1606.07947.pdf
概要
知識蒸留をトークンレベル、文レベルでNMTに適用 パラメータを少なくして学習の高速化やBLEUスコアの向上を確認している。
先行研究との差異
手法のキモ
NMTに知識蒸留を適用
毎トークンごとの語彙数次元の分類タスクに適用されることになる(トークンレベル)に加えて文レベルでの知識蒸留を考案。
文レベルでの知識蒸留では、教師モデルにおいてbeam searchで生成された文を教師文として、それとのクロスエントロピーロスをsoft lossとする。
上図一番右の例では、beam searchで生成された候補文に対して、実際の正解文との類似度(BLEU等)が高い候補を教師文とする。