Deep Learningにおける知識の蒸留 [記事] - Githubissues

Sosuke115 / paper-reading

4 stars 1 forks source link

Deep Learningにおける知識の蒸留 [記事] #2

Open Sosuke115 opened 4 years ago

Sosuke115 commented 4 years ago

記事リンク

http://codecrafthouse.jp/p/2018/01/knowledge-distillation/

知見メモ

複数の教師の出力の平均を取って教師分布とすることもある
知識情報として中間層（入力層含む）も付加的に用いることもある
知識蒸留のロスの取り方
- 二乗誤差
- 温度つきクロスエントロピー hardロスを加える際はsoftの損失にT^2を乗ずる必要あり
- KL divergence https://github.com/szagoruyko/attention-transfer/blob/master/utils.py#L10
教師のみ特権情報（画像+ラベル情報等）を用いて学習することもある
超多クラス分類ではスペシャリストを何人か作ってそこから知識蒸留