論文情報

https://arxiv.org/pdf/1710.09282.pdf Yu Cheng, Duo Wang, Pan Zhou, Member, IEEE, and Tao Zhang, Senior Member, IEEE

一言で言うと

モデル軽量化のサーベイ論文で、4つの手法、枝刈り・量子化( PARAMETER PRUNING AND QUANTIZATION)、低ランク近似(LOW-RANK APPROXIMATION AND SPARSITY)、転送/コンパクトな畳み込みフィルタ(TRANSFERRED/COMPACT CONVOLUTIONAL FILTERS)、蒸留(KNOWLEDGE DISTILLATION)についてそれぞれ紹介し、分析・評価・課題について述べる。

背景

2012年のImageNet Challengeや、Faces in the Wild (LFW) datasetなどで使用されたモデルで、モデルの学習を行い良い性能を出すためには、多くの時間を要し、そのような構造では、全結合層を必要とし、それによりパラメータ数が10億ほどになる。

大きなネットワークでは、多くのレイヤーとノードがあるため、リアルタイムアプリケーションでは、オンライン学習や増分学習(Incremental learning)などで、ハードのストレージやコンピュータコストが致命的になる。効率的な深層学習メソッドはAIに大きな影響を持ち、画像処理を行う際に、95MBのストレージ、38億の浮動小数点乗算必要な50層のResNet-50などが例として挙げられる。このResNet-50の余分な重みを削除後、75%以上のパラメータと、50%のコンピュータ時間を削減したが、ネットワークは重み削除前と同様に機能した。

それぞれの軽量化手法の多くは独立しており、枝刈りと量子化を同時にデプロイできるなど、それぞれで補完している。もう一つ例を挙げると、モデル量子化・二値化は低ランク近似と同時に使用され、更なる圧縮と計算スピードアップを達成した。

貢献・提案

2.パラメータ枝刈り・量子化

ネットワークの複雑さを低減し、過学習問題に対処している。枝刈りは、ニューラルネットワークに正規化する効果があるので、汎化性能を向上する。

2-A.量子化と二値化

ネットワーク量子化は、各重みを表すのに必要なビット数を減らすことで、元のネットワークを圧縮

[6]: Compressing deep convolutional networks using vector quantization, Wu et al., 2014
[7]: Quantized convolutional neural networks for mobile devices, Wu et al., 2016
- 提案：k-meansスカラー量子化をパラメータに適用
[8]: Improving the speed of neural networks on cpus, Vanhoucke et al., 2011
- 貢献：精度の低下を最小限にしながら、大幅な高速化
- 提案：8-ビット量子化
[9]: [Deep learning with limited numerical precision, Gupta et al., 2015]()
- 貢献：分類精度の低下が少なく、メモリ使用量と浮動小数点演算が大幅に削減
- 提案：16ビット固定小数点表現を用いた確率的な丸めに基づいたCNN学習
[10]: [Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding, Han et al., 2016]()
- 貢献：コードブックと同様に、さらにレートを下げることができた
- 提案：重み共有を用いてリンク重みを量子化し、量子化された重みにハフマン符号化を適用
- Network Pruningでも紹介
[11]: [Towards the limit of network quantization, Choi et al., 2016]()
- 提案：ヘシアン重みを用いてネットワークパラメータの重要度を測定できることを示し、ヘシアン重みを用いた平均的な量子化誤差をクラスタパラメータに対して最小化することを提案
[12]: [Binaryconnect: Training deep neural networks with binary weights during propagations, Courbariaux et al., 2015]()
[13]: [Binarynet: Training deep neural networks with weights and activations constrained to +1 or -1,, Courbariaux et al., 2016]()
[14]: [Xnor-net: Imagenet classification using binary convolutional neural networks, Rastegari et al., 2016]()
- 提案：2値重みを用いてCNNを直接学習
[15]: [Deep neural networks are robust to weight binarization and other nonlinear distortions, Merolla et al., 2016]()
- 貢献：訓練されたネットワークは、バイナリ重みを含む特定の重みの歪みに対しても回復力があることが示した
- 提案：バックプロパゲーションを用いてネットワークを訓練

2-B.ネットワーク枝刈り

[19]~[21]の重み減衰(weight decay)のような手法は、値ベース(magnitude based pruning)の手法よりも精度が良かった

[19]: [title, author., year]()
- 提案：偏った重み減衰(Biased Weight Decay)
[20]: [title, author., year]()
[21]: [title, author., year]()
- 貢献：損失関数のヘッセ行列に基づいて接続の数が減少
- 提案：[20]Optimal Brain Damage、[21]Optimal Brain Surgeon手法

[22]~[25]では、事前に訓練されたDNNモデルの冗長で非情報的な重みを枝刈り

[22]: [title, author., year]()
- 貢献：上長なニューロンを削除
- 提案：ニューロン間の冗長性を探索する、データフリー枝刈り(a data-free pruning method)
[23]: [title, author., year]()
- 提案：ネットワーク全体のパラメータと演算の合計数を減らすことを提案
[24]: [title, author., year]()
- 提案：低コストのハッシュ関数を用いて、パラメータ共有のために重みをハッシュバケットにグループ化するHashedNetsモデルを提案
[25]: [title, author., year]()
- 提案：ソフトな重み共有に基づく単純な正則化手法。量子化とプルーニングの両方を訓練し、これは典型的なプルーニング手法

[26]~[29]では、スパース性の制約(sparsity constraints)についての論文。スパース性は典型的には、l0もしくはl1ノルム正則化の最適化問題として導入される。

[26]: [title, author., year]()
- 貢献：
- 提案：
[27]: [title, author., year]()
- 提案：削減したフィルタを持った小さいCNNを学習する際に、ニューロンに対するグループスパース正則を適用
[28]: [title, author., year]()
- 提案：それぞれの層に対する構造化されたスパース正則器を加え、情報量が少ない(trivial)なフィルター、チャネル、層さえも取り除く
[29]: [title, author., year]()
- 提案：重要でないフィルターを選択するためにl1ノルムを使用

2-C.構造行列のデザイン

[30]: [title, author., year]()
[31]: [title, author., year]()
[32]: [title, author., year]()
[33]: [title, author., year]()
[34]: [title, author., year]()
[35]: [title, author., year]()
[36]: [title, author., year]()

3.低ランク近似とスパース性

[37]: [title, author., year]()
[38]: [title, author., year]()
[39]: [title, author., year]()
[40]: [title, author., year]()
[41]: [title, author., year]()
[42]: [title, author., year]()
[43]: [title, author., year]()

4.転送/コンパクトな畳み込みフィルタ

[44]: [title, author., year]()
[45]: [title, author., year]()
[46]: [title, author., year]()
[47]: [title, author., year]()

5.蒸留

[52]: Model Compression, Caruana et al., 2006
- 貢献：最初に知識伝達(KT)で使用された論文であり、浅いモデルに限定
- 提案：擬似データをラベル付けした強力な分類器の圧縮／エンサンブルモデルを学習し、元の大規模ネットワークの出力を再現
[53]: Do deep nets really need to be deep?, Caruana et al., 2014
- 貢献：知識蒸留(KD)され、深くて広いネットワークを浅いネットワークに圧縮し、圧縮されたモデルが複雑なモデルで学習した関数を模倣
- 提案：softmaxを介して出力されるクラス分布を学習することで、大きな教師モデルから小さなモデルへ知識をシフト
[54]: Distilling the knowledge in a neural network, Hinton et al., 2015
- 貢献：深層ネットワークの学習を容易にするKDフレームワークを紹介しており、シンプルな構造ながら画像分類タスクで良い結果を示している
- 提案：教師と生徒のモデルが存在し、生徒モデルは教師モデルの温度付きsoftmaxを学習する。生徒モデルの深さは教師モデルと同様
[55]: Fitnets: Hints for thin deep nets, Romero et al., 2014
- 貢献：深さのあるネットワークに対するネットワークの圧縮
- 提案：FiNetsと呼ばれる薄く深いネットワークを学習することにより、圧縮するアプローチ

拡張モデル

[56]: Bayesian dark knowledge, Balan et al., 2015
- 貢献：オンライン学習
- 提案：モンテカルロ近似を使用
[57]: Face model compression by distilling knowledge from neurons, Luo et al., 2016
- 提案：隠れ層を使用
[58]: Net2net: Accelerating learning via knowledge transfer, Chen et al., 2015
- 貢献：実験プロセスを高速化
- 提案：前の層を利用し、深い層を学習
[59]: Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer, Zagoruyko et al., 2016
- 提案：FitNetの予測を緩めるためのアテンショントランスファー

6.その他

[60]: [title, author., year]()
- 貢献：計算を大幅に削減
- 提案：注目(attention-like)のようなメカニズムを利用し、いくつかのタスク関連の入力領域に選択的にフォーカスまたは「参加」することを学ぶ
[61]: [title, author., year]()
- 提案：入力に基づいてD2NNニューロンのサブセットを選択して実行するフィードフォワード型ディープニューラルネットワークの一種であるダイナミックディープニューラルネットワーク(D2NN)が紹介
[62]: [title, author., year]()
[63]: [title, author., year]()
[64]: [title, author., year]()
[65]: [title, author., year]()
[66]: [title, author., year]()
[67]: [title, author., year]()
[68]: [title, author., year]()
[69]: [title, author., year]()
[70]: [title, author., year]()
[71]: [title, author., year]()
[72]: [title, author., year]()
[73]: [title, author., year]()

7.ベンチマーク

[74]: [title, author., year]()
[75]: [title, author., year]()
[76]: [title, author., year]()
[77]: [title, author., year]()
[78]: [title, author., year]()

8.課題と今後のタスク

[79]: [title, author., year]()
[80]: [title, author., year]()
[81]: [title, author., year]()
[82]: [title, author., year]()
[83]: [title, author., year]()
[84]: [title, author., year]()
[85]: [title, author., year]()
[86]: [title, author., year]()
[87]: [title, author., year]()
[88]: [title, author., year]()
[89]: [title, author., year]()
[90]: [title, author., year]()
[91]: [title, author., year]()
[92]: [title, author., year]()
[93]: [title, author., year]()
[94]: [title, author., year]()
[95]: [title, author., year]()
[96]: [title, author., year]()
[97]: [title, author., year]()
[98]: [title, author., year]()
[99]: [title, author., year]()

実験・考察

論文内で言及された手法に適用したモデルとデータセット

軽量化手法	評価済みモデル	評価済みデータセット
量子化と二値化 (枝刈り・量子化)	-	-
ネットワーク枝刈り (枝刈り・量子化)	-	-
構造行列のデザイン (枝刈り・量子化)	-	-
低ランク近似とスパース性	AlexNet、VGG-16、GoogleNet	-
転送/コンパクトな畳み込みフィルタ	VGG-16、MBA、CRELU、CIRC、DCNN	CIFAR10、CIFAR-100
蒸留	-	MNIST、CIFAR10、 CIFAR-100、SVHNやAFLW
その他	-	-

論文内で言及された圧縮手法に対する結果

軽量化手法	モデルサイズ削減	学習・推論速度向上	適用の容易さ	パフォーマンス
量子化と二値化 (枝刈り・量子化)	〇	〇	〇	〇
ネットワーク枝刈り (枝刈り・量子化)	〇	×	×	〇
構造行列のデザイン (枝刈り・量子化)	〇	〇	×	×
低ランク近似とスパース性	〇	〇	×	〇
転送/コンパクトな畳み込みフィルタ	〇	〇	〇	△(モデルの構造に依存)
蒸留	〇	〇	〇	〇
その他	〇	〇	〇	〇

2-A.量子化と二値化

実験考察 GoogleNetのような大きなCNNの場合バイナリネットの精度は低くなる。バイナリネットのもう一つの欠点は、既存の二値化手法が簡単な行列近似に基づいており、精度低下における二値化の影響を無視している。このような問題に対処しているのは以下の論文である

[16]: [Loss-aware binarization of deep networks, Hou et al., 2016]()
- 貢献：2値重みに対する損失を直接最小化
- 提案：対角ヘシアン近似を用いた近接ニュートンアルゴリズム
[17]: [Neural networks with few multiplications, Lin et al., 2015]() 学習段階での浮動小数点の乗算の時間
- 提案：確率的に2値化された重みを用いて、隠れた状態の計算での乗算を有意な変化に変換
[18]: [Deep learning with low precision by half-wave gaussian quantization, Zhao et al., 2017]()
- 提案：半波ガウス量子化

2-B.ネットワーク枝刈り

実験考察 l1もしくはl2正則化を使用する場合、一般的な手法よりも多くのイテレーションを必要とする。加えて、枝刈りの基準のためには、層に対して繊細な手作業でのセットアップが必要であり、これによりパラメータのファインチューニングが必要になり、煩わしくなる可能性がある。さらに、ネットワーク枝刈りは通常、モデルサイズは小さくするが、トレーニングやテストの速度は向上しない。

2-C.構造行列のデザイン

実験考察この種のアプローチの問題点の1つは，構造的制約がモデルにバイアスをもたらす可能性があるため，通常は性能に悪影響を与える．一方で，適切な構造行列をどうやって見つけるかは難しい．それを導き出す理論的な方法はない。

3.低ランク近似とスパース性

実験

考察低ランク近似に基づくアプローチは、モデルの圧縮と高速化のために単純である。しかし、計算量の多い分解演算を伴うため、実装はそれほど簡単ではない。もう一つの問題は、現在の手法は低ランク近似をレイヤーごとに実行しているため、異なる層が異なる情報を保持しているために重要な全体のパラメータ圧縮を実行できない。最後に、factorizationは、元のモデルと比較して収束を達成するために、大規模なモデル再訓練を必要とする。

4.転送/コンパクトな畳み込みフィルタ

実験

考察畳み込み層に変換制約を適用することはいくつか問題がある。これらの手法は、広い／平坦なアーキテクチャ（VGGNet、AlexNetなど）では良い性能を達成するが、薄い／深いアーキテクチャ（ResNetなど）では良い性能を発揮しない。第二に，伝達の仮定が強すぎて学習を導くことができず，結果が不安定になる場合がある。畳み込みのためにコンパクトなフィルタを使用することで，計算コストを直接削減することができる。重要なのは、ルーズでオーバーパラメトリックなフィルタをコンパクトなブロックに置き換えて速度を向上させることである。

[49]: [title, author., year]()
- 貢献：大幅な高速化を実現
- 提案：3×3の畳み込みを2つの1×1の畳み込みに分解して使用
[50]: [title, author., year]()
- 貢献：約50個のパラメータ数を削減
- 提案：SqueezeNet。3×3畳み込みを1×1畳み込みに置き換える
[51]: [title, author., year]()
- 貢献：パラメータ数の削減
- 提案：MobileNetsでも、50の手法と同様

5.蒸留

実験考察蒸留のアプローチでは、深いモデルを浅いモデルに変更し、コンピュータのコストをかなり抑えることに大きく貢献する。しかし、いくつか歓迎できない点もあり、1つがソフトマックスなどのタスクにしか適用できないことと、もう一つが一般的に他の軽量化手法に劣ることが挙げられる。

6.その他

実験考察

7.ベンチマーク

実験

考察圧縮と速度向上のモデルとしてよく知られているモデルは、AlexNetでありパフォーマンス評価のために使用された。他のモデルでは、LeNetsやAll-CNN-netsなどがある。network in networks (NIN)やVGG nets、residual networks(ResNet)も新しいモデルではあるが、ベースラインのモデルとして使用される。

8.課題と今後のタスク

考察アプリケーションや求められる状況により、適切な圧縮手法は変化する。

8-A.一般的なサジェスチョン

アプリケーションがあらかじめ学習されたモデルから作成された小さいモデルを必要とするとき、枝刈り・量子化もしくは、低ランク分解を選択する
end-to-endのソリューションを必要とするなら、低ランク分解もしくは、転送畳み込み層のアプローチを考えるべき
医療画像のような特定のドメインの場合、手動で作成したような（転送畳み込みフィルタや構造アーキテクチャをデザインする）手法が利点を持つことがある。例えば、医用画像の分類を行う場合、医用画像（臓器など）には回転変換特性があるため、転送された畳み込みフィルタが有効であると考えられる
刈り込みと量子化のアプローチは、一般的に精度を落とさずに適度な圧縮率を得ることができる。そのため、安定したモデル性能が求められるアプリケーションでは、刈り込みと量子化を利用した方が良い。
データセットが大きくない場合、蒸留の方が良い。これにより、少ないデータセットでロバストなモデルが作成される
これらの圧縮手法は、複数の手法を重ねて使用することができるので、2~3の手法を同時に使用した方がよい。物体検出の場合、畳み込み層で、低ランク近似手法を適用し、全結合層で枝刈りを適用するなど

8-B.技術的課題

枝刈りはCNNを圧縮・高速化するための有効な方法である。現在の剪定技術は、ニューロン間の接続を排除するために設計されたものがほとんどである。一方、チャネルの剪定は、特徴マップの幅を直接縮小し、モデルをより薄いものに縮小することができる。これは効率的ではあるが、チャンネルを除去すると後続の層の入力が劇的に変化する可能性があるため、挑戦的でもある。
構造マトリクスや転送畳み込みフィルタの手法は、モデルに事前の人間の知識を課すため、性能や安定性に大きな影響を与える可能性がある。これらの事前知識の影響をどのように制御するかを検討することは非常に重要である。
蒸留は、特別なハードウェアや実装を必要とせず、直接モデルを高速化できるなど、多くの利点がある。KDをベースにしたアプローチを開発し、その性能を向上させる方法を探ることは、まだまだ価値のあることである。
圧縮手法の大きな成果にもかかわらず、ブラックボックスのメカニズムが未だに採用の鍵となる障壁となっている。例えば、なぜ一部のニューロンや接続が刈り込まれてしまうのか、その理由は不明である。知識の解釈可能性を探ることは、依然として重要な課題である。

8-C.可能性のある未来の研究方針

補足・疑問など

疑問

computational timeとはCPU時間であるが、具体的にどの計算時間を指すのかわからない

蒸留の手法が本当に新しいのか疑問。ちょっと古いような気がする

codebook コードブックとは

バイナリネットとは、量子化いまいちわからない

構造行列のデザインとは？

圧縮手法評価の計算式

圧縮率(compression rate) は

$\alpha (M, M^{*}) = \frac{a }{a ^{*}}$

であり、aがオリジナルのパラメータ数であり、a*が圧縮されたときのパラメータ数である。

空間削減率(space saving rate)は

$\beta (M, M^{*}) = \frac{a - a ^{*}}{a ^{*}}$

である。

実行時間(running time)は

$\delta (M, M^{*}) = \frac{s}{s ^{*}}$

であり、sがオリジナルの実行時間であり、s*が圧縮されたときの実行時間である。エポックごとの平均時間を使用している。学習と推論において、圧縮率と速度上昇率は高い相関関係にある。

良い圧縮手法

より少ないパラメータ数と、より短い実行時間(computational time)でもともとのモデルと同じくらいのパフォーマンスを実現できるモデルが良い圧縮手法。

異なるCNNデザインでは、パラメータ数と実行時間が異なることがある。

例を挙げると、全結合層を持つ深層CNNsでは、ほとんどのパラメータが全結合層に存在している一方で、画像分類タスクなどで、浮動小数点演算(float point operations)初めの数枚の畳み込み層でほとんど行われる。

よって、ネットワークの圧縮と高速化は、求められる機能ごとに焦点を当てるを変える必要がある。

モデル

AlexNet 8層(中間層が6層)、VGG 16層、ResNet 152層

略語

KT: knowledge transfer
KD: knowledge distillation
AT: Attention Transfer

Beluuuuuuga / papers

A Survey of Model Compression and Acceleration for Deep Neural Networks [arxiv '20] #8

論文情報

一言で言うと

背景

貢献・提案

2.パラメータ枝刈り・量子化

2-A.量子化と二値化

2-B.ネットワーク枝刈り

2-C.構造行列のデザイン

3.低ランク近似とスパース性

4.転送/コンパクトな畳み込みフィルタ

5.蒸留

6.その他

7.ベンチマーク

8.課題と今後のタスク

実験・考察

論文内で言及された手法に適用したモデルとデータセット

論文内で言及された圧縮手法に対する結果

2-A.量子化と二値化

2-B.ネットワーク枝刈り

2-C.構造行列のデザイン

3.低ランク近似とスパース性

4.転送/コンパクトな畳み込みフィルタ

5.蒸留

6.その他

7.ベンチマーク

8.課題と今後のタスク

補足・疑問など

疑問

圧縮手法評価の計算式

良い圧縮手法

モデル

略語

論文内で言及された手法を一般的な圧縮手法に変換した結果

軽量化手法	モデルサイズ削減	学習・推論速度向上	適用の容易さ	パフォーマンス
量子化	〇	〇	×	〇
(ネットワーク)枝刈り	〇	×	×	〇
低ランク近似	〇	〇	×	〇
高速に設計されたモデル	〇	〇	×	△(モデルの構造に依存)
蒸留	〇	〇	〇	〇