keimoriyama / archive-paper_management

0 stars 0 forks source link

CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION #13

Open keimoriyama opened 2 years ago

keimoriyama commented 2 years ago

CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION

CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION

背景:なぜその問題を解決したいのか

複数の教師を用いる知識蒸留に置いて,個別の教師のパフォーマンスは生徒モデルのパフォーマンスに大きな影響を与える.

だが既存手法では,良い教師と悪い教師を見分けることが困難である

目的:どういう問題を解決したのか

複数の教師を用いた知識蒸留に置いて,正解ラベルを元にした教師の重みづけの方法を提案した.

この重みづけは中間表現の蒸留時にも有効に動作することを示した

提案:解決に向けたキーアイデアは何か

3つの損失関数を計算する.

教師の予測の重み付き和の蒸留

式1は教師の予測に対するクロスエントロピー誤差の値,式2はこの値を使って教師の重みを決定している

$\sigma(z^c_{T_k})$は温度付きsoftmax関数になる.

Screen Shot 2022-05-27 at 10 59 25

式3で,それぞれの教師と生徒の予測の類似度を計算している.

教師の予測により決定した重みを使っているところがみそ

Screen Shot 2022-05-27 at 10 59 37

中間表現の蒸留

式4で,生徒モデルの中間表現の出力を教師モデルの分類器に突っ込んでいる.

式5,6は上とおなじ重みの付け方をしている

Screen Shot 2022-05-27 at 11 06 55

$F_{T_k}$が教師モデルの出力,$F_S$が生徒モデルの中間表現の出力,関数$r$で次元を合わせている.

シンプルな二乗和誤差

Screen Shot 2022-05-27 at 11 08 42

残りの一つは生徒モデルの予測に対する損失

Screen Shot 2022-05-27 at 11 11 28

で,それぞれの損失に対して重み付き和を計算する

Screen Shot 2022-05-27 at 11 11 11

結果:結局問題は解決されたのか.新しくわかったことは?

他手法との比較(MKD)

他手法よりも良い精度を達成した.

Screen Shot 2022-05-27 at 11 12 24

他手法との比較(KD)

1つの教師を用いるよりも良い精度を達成した

Screen Shot 2022-05-27 at 11 13 20

異なるアーキテクチャを持つ教師モデルを使った時の蒸留

Screen Shot 2022-05-27 at 11 16 33

ResNet8x4に低い重みが割り当てられている(z軸に対して高い位置にプロットされていない)ので,いい重み付けができているといえる

Screen Shot 2022-05-27 at 11 16 44

教師の数を増やした時のパフォーマンス

教師の数を増やすとパフォーマンスが上がったりする.

他手法よりも高いパフォーマンスをしていることがわかる

Screen Shot 2022-05-27 at 11 18 15