Sosuke115 / paper-reading

4 stars 1 forks source link

Distill, Adapt, Distill: Training Small, In-Domain Models for Neural Machine Translation [2020] #9

Open Sosuke115 opened 4 years ago

Sosuke115 commented 4 years ago

論文リンク

https://arxiv.org/pdf/2003.02877.pdf

概要

NMTのドメイン適応において、文レベルでの知識蒸留を用いた効率的なモデルを提案

general-domainデータで知識蒸留した後に、in-domainデータで再度知識蒸留するのが効果的

studentモデルは、general-domainデータで学習した後に、teacherモデルをgeneral-domainデータで学習、in-domainデータで再学習させてから知識蒸留を行うのが効果的

知見メモ

transformer機械翻訳モデルの参考になりそう

Sosuke115 commented 4 years ago

関連論文

文レベルでの知識蒸留は、翻訳による教師文の単純化により、小パラメータのモデルの表現力でも学習できるようになったというのが通説だったが、それだけでなく正則化の効果もあることを主張している