Open Sosuke115 opened 4 years ago
https://arxiv.org/pdf/1908.01851.pdf
word embeddingを用いて正解分布を予測し知識蒸留するself-knowledge distillation (SKD)を提案 言語モデルと機械翻訳タスクにてパフォーマンスの向上を確認
知識蒸留で典型的に用いるような、教師モデルの出力分布の代わりに、正解単語と予測単語の分散表現のユークリッド距離を考慮した以下のような式を正解分布と定義。以下の式が大きいほど、正解文に近いという仮定をおいている。
上記正解分布に関して損失を取る際は全ての語彙に対して取るのではなく、モデルが予測した単語と正解単語に関してのみ取ることで計算コストを減らしている。
全体の損失関数は上記のようになる。
0. 論文リンク
https://arxiv.org/pdf/1908.01851.pdf
概要
word embeddingを用いて正解分布を予測し知識蒸留するself-knowledge distillation (SKD)を提案 言語モデルと機械翻訳タスクにてパフォーマンスの向上を確認
先行研究との差異
手法のキモ
知識蒸留で典型的に用いるような、教師モデルの出力分布の代わりに、正解単語と予測単語の分散表現のユークリッド距離を考慮した以下のような式を正解分布と定義。以下の式が大きいほど、正解文に近いという仮定をおいている。
上記正解分布に関して損失を取る際は全ての語彙に対して取るのではなく、モデルが予測した単語と正解単語に関してのみ取ることで計算コストを減らしている。
全体の損失関数は上記のようになる。