Open Sosuke115 opened 4 years ago
https://arxiv.org/pdf/2003.02877.pdf
NMTのドメイン適応において、文レベルでの知識蒸留を用いた効率的なモデルを提案
general-domainデータで知識蒸留した後に、in-domainデータで再度知識蒸留するのが効果的
studentモデルは、general-domainデータで学習した後に、teacherモデルをgeneral-domainデータで学習、in-domainデータで再学習させてから知識蒸留を行うのが効果的
transformer機械翻訳モデルの参考になりそう
文レベルでの知識蒸留は、翻訳による教師文の単純化により、小パラメータのモデルの表現力でも学習できるようになったというのが通説だったが、それだけでなく正則化の効果もあることを主張している
論文リンク
https://arxiv.org/pdf/2003.02877.pdf
概要
NMTのドメイン適応において、文レベルでの知識蒸留を用いた効率的なモデルを提案
general-domainデータで知識蒸留した後に、in-domainデータで再度知識蒸留するのが効果的studentモデルは、general-domainデータで学習した後に、teacherモデルをgeneral-domainデータで学習、in-domainデータで再学習させてから知識蒸留を行うのが効果的
知見メモ
transformer機械翻訳モデルの参考になりそう