tm4roon / survey

Survey on machine learning.
14 stars 1 forks source link

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter #54

Open tm4roon opened 5 years ago

tm4roon commented 5 years ago

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

BERTを知識蒸留することにより、軽量化・高速化を図った研究。モデルの性能を97%保ちつつ、モデルサイズを40%、計算速度を60%落とすことに成功。知識蒸留を行う際には、教師モデルの出力分布を教師データとしたsoft target lossに加えて、BERTの学習時の損失関数であるmasked language modeling loss及び隠状態間の差を損失としたcosine embedding lossを加える。

文献情報

tm4roon commented 5 years ago

知識蒸留