Open shimopino opened 4 years ago
[arXiv:2004.07320] Training with Quantization Noise for Extreme Model Compression
Angela Fan, Pierre Stock, Benjamin Graham, Edouard Grave, Remi Gribonval, Herve Jegou, Armand Joulin
2020-04-15
モデル圧縮の手法には不要なパラメータを削除する枝刈りや教師モデルの知識を転移させる蒸留などがあるが、これらの手法はモデルのパフォーマンスの悪化を招くことが多い。
そこでモデルの構造を変化させずに圧縮を行う手法に、パラメータごとのビット数を小さくする量子化が存在している。
量子化でよく採用される手法はモデルの学習が終わった後に、浮動小数点のパラメータを整数値に変換する手法である。しかしこの手法は順伝播が進むにつれて誤差が増えていき、最終的に精度が大きく落ちることがある。
本研究では、モデルの学習中に一部のパラメータのみを量子化させることで安定して高い圧縮が可能であることを示した。
Quant-Noiseの性能を既存の量子化手法と比較した。
https://github.com/pytorch/fairseq/blob/master/examples/quant_noise/README.md
論文へのリンク
[arXiv:2004.07320] Training with Quantization Noise for Extreme Model Compression
著者・所属機関
Angela Fan, Pierre Stock, Benjamin Graham, Edouard Grave, Remi Gribonval, Herve Jegou, Armand Joulin
投稿日時(YYYY-MM-DD)
2020-04-15
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
モデル圧縮の手法には不要なパラメータを削除する枝刈りや教師モデルの知識を転移させる蒸留などがあるが、これらの手法はモデルのパフォーマンスの悪化を招くことが多い。
そこでモデルの構造を変化させずに圧縮を行う手法に、パラメータごとのビット数を小さくする量子化が存在している。
量子化でよく採用される手法はモデルの学習が終わった後に、浮動小数点のパラメータを整数値に変換する手法である。しかしこの手法は順伝播が進むにつれて誤差が増えていき、最終的に精度が大きく落ちることがある。
本研究では、モデルの学習中に一部のパラメータのみを量子化させることで安定して高い圧縮が可能であることを示した。
3. 技術や手法の"キモ"はどこにある?
3.1 Fixed-point Scalar Quantization
3.2 Product Quantization
3.3 Combining Fixed-Point with Product Quantization
4. どうやって有効だと検証した?
Quant-Noiseの性能を既存の量子化手法と比較した。
5. 議論はあるか?