Sosuke115 / paper-reading

4 stars 1 forks source link

Sequence-Level Knowledge Distillation [2016] #4

Open Sosuke115 opened 4 years ago

Sosuke115 commented 4 years ago

論文リンク

https://arxiv.org/pdf/1606.07947.pdf

概要

知識蒸留をトークンレベル、文レベルでNMTに適用 パラメータを少なくして学習の高速化やBLEUスコアの向上を確認している。

先行研究との差異

手法のキモ

Screen Shot 2020-08-27 at 18 27 26

NMTに知識蒸留を適用

毎トークンごとの語彙数次元の分類タスクに適用されることになる(トークンレベル)に加えて文レベルでの知識蒸留を考案。

文レベルでの知識蒸留では、教師モデルにおいてbeam searchで生成された文を教師文として、それとのクロスエントロピーロスをsoft lossとする。

上図一番右の例では、beam searchで生成された候補文に対して、実際の正解文との類似度(BLEU等)が高い候補を教師文とする。

Sosuke115 commented 4 years ago

関連論文

Sosuke115 commented 4 years ago

知見メモ