Open Sosuke115 opened 4 years ago
http://codecrafthouse.jp/p/2018/01/knowledge-distillation/
複数の教師の出力の平均を取って教師分布とすることもある
知識情報として中間層(入力層含む)も付加的に用いることもある
知識蒸留のロスの取り方
教師のみ特権情報(画像+ラベル情報等)を用いて学習することもある
超多クラス分類ではスペシャリストを何人か作ってそこから知識蒸留
記事リンク
http://codecrafthouse.jp/p/2018/01/knowledge-distillation/
知見メモ
複数の教師の出力の平均を取って教師分布とすることもある
知識情報として中間層(入力層含む)も付加的に用いることもある
知識蒸留のロスの取り方
教師のみ特権情報(画像+ラベル情報等)を用いて学習することもある
超多クラス分類ではスペシャリストを何人か作ってそこから知識蒸留