Training with Quantization Noise for Extreme Model Compression

Angela Fan, Pierre Stock, Benjamin Graham, Edouard Grave, Remi Gribonval, Herve Jegou, Armand Joulin

2020-04-15

1. どんなもの？

モデル圧縮の手法には不要なパラメータを削除する枝刈りや教師モデルの知識を転移させる蒸留などがあるが、これらの手法はモデルのパフォーマンスの悪化を招くことが多い。

そこでモデルの構造を変化させずに圧縮を行う手法に、パラメータごとのビット数を小さくする量子化が存在している。

量子化でよく採用される手法はモデルの学習が終わった後に、浮動小数点のパラメータを整数値に変換する手法である。しかしこの手法は順伝播が進むにつれて誤差が増えていき、最終的に精度が大きく落ちることがある。

本研究では、モデルの学習中に一部のパラメータのみを量子化させることで安定して高い圧縮が可能であることを示した。

Quant-Noiseの性能を既存の量子化手法と比較した。