Distilling the Knowledge in a Neural Network

背景：なぜその問題を解決したいのか

音声認識や物体検知タスクでは巨大なモデルが使われることが多い

このようなモデルをシステム上で実装しようとすると計算時間と計算リソースをたくさん消費してしまう

推論時間のかかる大きなモデルのパフォーマンスを推論時間のかからない小さなモデルで再現した

巨大な教師モデルから，小さい生徒モデルに知識を移す蒸留という手法を提案．

知識を移すという状態は，出力が同じようになった状態のことを指す

この知識を移すために，モデルの出力を温度付きsoftmaxで正規化して確率分布にしたものを教師モデルと生徒モデルで揃えるようにして学習する

音声認識データセットにおいてアンサンブルモデルを教師モデルとして聖地モデルに知識を蒸留した．

結果，生徒モデルは教師モデルと同等の制度を達成した