Open keimoriyama opened 2 years ago
author
link
CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION
複数の教師を用いる知識蒸留に置いて,個別の教師のパフォーマンスは生徒モデルのパフォーマンスに大きな影響を与える.
だが既存手法では,良い教師と悪い教師を見分けることが困難である
複数の教師を用いた知識蒸留に置いて,正解ラベルを元にした教師の重みづけの方法を提案した.
この重みづけは中間表現の蒸留時にも有効に動作することを示した
3つの損失関数を計算する.
式1は教師の予測に対するクロスエントロピー誤差の値,式2はこの値を使って教師の重みを決定している
$\sigma(z^c_{T_k})$は温度付きsoftmax関数になる.
式3で,それぞれの教師と生徒の予測の類似度を計算している.
教師の予測により決定した重みを使っているところがみそ
式4で,生徒モデルの中間表現の出力を教師モデルの分類器に突っ込んでいる.
式5,6は上とおなじ重みの付け方をしている
$F_{T_k}$が教師モデルの出力,$F_S$が生徒モデルの中間表現の出力,関数$r$で次元を合わせている.
シンプルな二乗和誤差
残りの一つは生徒モデルの予測に対する損失
で,それぞれの損失に対して重み付き和を計算する
他手法よりも良い精度を達成した.
1つの教師を用いるよりも良い精度を達成した
ResNet8x4に低い重みが割り当てられている(z軸に対して高い位置にプロットされていない)ので,いい重み付けができているといえる
教師の数を増やすとパフォーマンスが上がったりする.
他手法よりも高いパフォーマンスをしていることがわかる
CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION
author
link
CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION
背景:なぜその問題を解決したいのか
複数の教師を用いる知識蒸留に置いて,個別の教師のパフォーマンスは生徒モデルのパフォーマンスに大きな影響を与える.
だが既存手法では,良い教師と悪い教師を見分けることが困難である
目的:どういう問題を解決したのか
複数の教師を用いた知識蒸留に置いて,正解ラベルを元にした教師の重みづけの方法を提案した.
この重みづけは中間表現の蒸留時にも有効に動作することを示した
提案:解決に向けたキーアイデアは何か
3つの損失関数を計算する.
教師の予測の重み付き和の蒸留
式1は教師の予測に対するクロスエントロピー誤差の値,式2はこの値を使って教師の重みを決定している
$\sigma(z^c_{T_k})$は温度付きsoftmax関数になる.
式3で,それぞれの教師と生徒の予測の類似度を計算している.
教師の予測により決定した重みを使っているところがみそ
中間表現の蒸留
式4で,生徒モデルの中間表現の出力を教師モデルの分類器に突っ込んでいる.
式5,6は上とおなじ重みの付け方をしている
$F_{T_k}$が教師モデルの出力,$F_S$が生徒モデルの中間表現の出力,関数$r$で次元を合わせている.
シンプルな二乗和誤差
残りの一つは生徒モデルの予測に対する損失
で,それぞれの損失に対して重み付き和を計算する
結果:結局問題は解決されたのか.新しくわかったことは?
他手法との比較(MKD)
他手法よりも良い精度を達成した.
他手法との比較(KD)
1つの教師を用いるよりも良い精度を達成した
異なるアーキテクチャを持つ教師モデルを使った時の蒸留
ResNet8x4に低い重みが割り当てられている(z軸に対して高い位置にプロットされていない)ので,いい重み付けができているといえる
教師の数を増やした時のパフォーマンス
教師の数を増やすとパフォーマンスが上がったりする.
他手法よりも高いパフォーマンスをしていることがわかる