Sosuke115 / paper-reading

4 stars 1 forks source link

Self-Knowledge Distillation in Natural Language Processing [2020] #1

Open Sosuke115 opened 4 years ago

Sosuke115 commented 4 years ago

0. 論文リンク

https://arxiv.org/pdf/1908.01851.pdf

概要

word embeddingを用いて正解分布を予測し知識蒸留するself-knowledge distillation (SKD)を提案 言語モデルと機械翻訳タスクにてパフォーマンスの向上を確認

先行研究との差異

手法のキモ

知識蒸留で典型的に用いるような、教師モデルの出力分布の代わりに、正解単語と予測単語の分散表現のユークリッド距離を考慮した以下のような式を正解分布と定義。以下の式が大きいほど、正解文に近いという仮定をおいている。

Screen Shot 2020-08-27 at 13 34 42

上記正解分布に関して損失を取る際は全ての語彙に対して取るのではなく、モデルが予測した単語正解単語に関してのみ取ることで計算コストを減らしている

Screen Shot 2020-08-27 at 14 00 14

全体の損失関数は上記のようになる。