Recent Advances in Efficient Computation of Deep Convolutional Neural Networks[arxiv '18]

論文情報

https://arxiv.org/pdf/1802.00939.pdf Jian Cheng, Peisong Wang, Gang Li, Qinghao Hu, Hanqing Lu

一言で言うと

モデル軽量化のサーベイ論文で、ネットワーク枝刈り(network pruning), 低ランク近似(low-rank approximation), ネットワーク量子化(network quantization), 蒸留(teacher-student networks), コンパクトなネットワークデザイン(compact network design), ハードによる高速化(hardware accelerators)について調査し、紹介する。

背景

近年、無人ドローン、スマートフォン、インテリジェントメガネなどの組み込み機器やモバイル機器の分野で大きな進歩が見られています。これらの機器へのDNNモデルの展開に対する需要はますます高まっている。しかし、これらの機器のリソース（例えば、ストレージや計算ユニット、バッテリ電力など）は非常に限られており、低コストの環境で最新のDNNを高速化することが大きな課題となっている。

学習時では、高性能なCPUやGPUクラウドにより、計算の複雑さは問題とはならない。また、最新のコンピュータは大容量のディスクとメモリを搭載しているので、学習時にも問題とならない。

しかし、CNNの推論時、組み込み機器やモバイル機器に搭載する際に、状況は大きく異なり、CNNの計算の際にバッテリーをかなり消費してしまうことや、パラメータ数により、ストレージとランタイムメモリを消費してしまう。

一般に、ＣＮＮの計算複雑度は、表１に示すように、畳み込み層に支配され、パラメータの数は主に完全に接続された層に関係している。したがって、ほとんどのネットワーク高速化手法は畳み込み層の計算複雑度を下げることに焦点を当てているのに対し、ネットワーク圧縮手法は主に完全接続層を圧縮しようとしている。

貢献・提案

3.ネットワーク枝刈り

重要でないパラメータを除去するため、枝刈りが使用される。枝刈りにより利点は2つあり、1点目は剪定後の疎なパラメータは、圧縮された疎な行形式（CSR）または圧縮された疎な列形式（CSC）で保存できるためディスク容量が少なくて済むこと、2点目は枝刈り後のパラメータを含む計算が省略されるため、ディープネットワークの計算複雑度を低減することが挙げられる。刈り込みの粒度によって、細粒度刈り込み、ベクトルレベル刈り込み、カーネルレベル刈り込み、グループレベル刈り込み、フィルタレベル刈り込みの5つのグループに分類され、図1で示される。

3.1.細かい枝刈り(Fine-grained Pruning)

4.低ランク近似(Low-rank Approximation)

畳み込み層の畳み込みカーネルＷ∈Ｒ^(ｗ×ｈ×ｃ×ｎ)は４次元テンソルである。これらの４次元は、それぞれ、カーネルの幅、カーネルの高さ、入力チャネルと出力チャネルの数に対応している。次元の一部をマージすることにより、４次元テンソルはｔ-Ｄ（ｔ＝１，-----４）テンソルに変換できる。低ランク分解の動機は、Wに近いがより効率的な計算を容易にする近似テンソルWˆを見つけること。4次元をどのように並べ替えるか、どの次元で低ランク制約を課すかという2つのポイントがある。フィルタが分解される成分の数に応じて、低ランクに基づく手法を大まかに3つのカテゴリに分ける：2成分分解、3成分分解、4成分分解。

4.1.2成分分解(Two-component Decomposition)

提案：2 成分分解では，重みテンソルを 2 つに分割し，畳み込み層を 2 つの連続した層に置き換える。

[35]: Speeding up Convolutional Neural Networks with Low Rank Expansions, Jaderberg et al., 2014
- 貢献：文字認識データセットで学習したCNNは4.5倍の高速化を達成したが，精度は1％低下
- 提案：空間次元w∗hをw∗1と1∗hのフィルタに分解

SVDは一般的な低ランク行列分解法。次元の w,h,c を結合することで、カーネルは（w ∗ h ∗ c）×n の大きさの 2 次元行列となり、SVD 分解法を行うことができる。

[11]: Predicting Parameters in Deep Learning, Denil et al., 2013
- 貢献：文字認識データセットで学習したCNNは4.5倍の高速化を達成したが，精度は1％低下
- 提案：ネットワークの冗長性を低減するために SVD を利用
[97]: Accelerating very deep convolutional networks for classification and detection., Zhang et al., 2015
- 貢献：ImageNetの分類課題であるVGG-16モデルにおいて、この2成分SVD分解法は、約1.66%のトップ5エラーの増加を犠牲にしながらも、理論的には3倍の高速化を達成
- 提案：フィルタを w × h × c の形状の d 個のフィルタと 1 × 1 × d の形状の n 個のフィルタからなる 2 つのフィルタバンクに置き換えて SVD 分解を検討している。また、低ランク分解に基づく非線形応答再構成法を提案

4.1.3成分分解(Three-component Decomposition)

2成分分解法の解析に基づいて、2つの連続した2成分分解によって1つの素直な3成分分解法を得ることができる。 SVD分解では、2つの重みテンソルが導入されていることに注意する。一つはw×h×c×dのテンソルであり、もう一つはd×nのテンソル（行列）である。第１の畳み込みは、第１のテンソルのサイズが大きいため、非常に時間がかかります。また、ＳＶＤ分解後の第１の重みテンソルに対して２成分分解を行うことも可能であり、これは３成分分解法に変わる。

[97]: Accelerating very deep convolutional networks for classification and detection., Zhang et al., 2015
- 貢献：
- 提案：
[41]: Compression of Deep Convolutional Neural Networks for Fast and Low Power Mobile Applications., Kim et al., 2015
- 貢献：0.5%の精度向上を犠牲にしながらも、理論的には4.93倍の高速化を達成
- 提案：2成分分解後の最初のテンソルに入力チャネル次元に沿ったSVD分解を用い、タッカー分解形式が得る。これらの３成分は、空間サイズ１×１、ｗ×ｈ、および別の１×１の畳み込みである。2段階のSVD分解を用いるのではなく、直接タッカー分解法(Tucker decomposition format)を用いてこれらの3つの成分を得ている
[80]: Accelerating Convolutional Neural Networks for MobileApplications., Wang et al., 2016
- 貢献：VGG-16モデルでは7.4%の高速化を達成しましたが、トップ5の誤差は1.3%増加
- 提案：さらに複雑さを軽減するために、低ランク・群疎分解に基づくBlockTerm Decomposition (BTD)法を提案。
[82]: Accelerating very deep convolutional networks for classification and detection., Wang et al., 2018
- 貢献：物体検出や画像検索の高速化も達成

資料

4.1.4成分分解(Four-component Decomposition)

提案：空間次元だけでなく、入出力チャネル次元に沿って低ランク特性を探索することで、4成分分解を得る
[45]: Speeding-up Convolutional Neural Networks Using Fine-tuned CP-Decomposition., Lebedev et al., 2014
- 貢献：約1%の精度低下を犠牲にして、AlexNetの第2層で4.5倍の高速化を達成
- 提案：CP分解加速度。4つの成分を1×1，w×1，1×h，1×1のサイズの畳み込みとする。
  5.ネットワーク量子化(Network Quantization)
  
  量子化は、多くの圧縮・高速化アプリケーションのためのアプローチです。画像圧縮や情報検索などに幅広く応用されています。また、ネットワークの高速化や圧縮のために、多くの量子化手法が研究されている。これらの手法を大きく2つのグループに分類することができ、(1)スカラー量子化やベクトル量子化など、量子化のためのコードブックが必要となる場合がある手法と、(2)固定点量子化の2つに分類できる。

5.1. スカラー量子化・ベクトル量子化(Scalar and Vector Quantization)

[15]: Compressing Deep Convolutional Networks using Vector Quantization., Lebedev et al., 2014
- 貢献：パラメータを圧縮
- 提案：ディープネットワークを圧縮するためのスカラー量子化とベクトル量子化の手法を検討し、スカラー量子化では、よく知られているK-meansアルゴリズムを用いてパラメータを圧縮した。また、ベクトル量子化の特殊なケースである積量子化アルゴリズム(PQ) 36を利用して、完全に接続された層を圧縮した。PQアルゴリズムは、特徴空間を複数の不連続な部分空間に分割し、各部分空間でK平均を行うことで、完全に接続された層をわずかな損失で圧縮することができる
[86]: Quantized convolutional neural networks for mobile devices., Wu et al., 2016
[8]: Quantized cnn: A unified approach to accelerate and compress convolutional networks., Cheng et al., 2017
- 貢献：4〜6倍の高速化と15〜20倍の圧縮率を精度損失の少ない方法で実現
- 提案：畳み込みニューラルネットワークの高速化と圧縮を同時に行うためにPQアルゴリズムを利用することを提案。特徴マップの再構成損失を最小化することで、畳み込みフィルタを層ごとに量子化することを提案した。推論段階では、特徴マップパッチとコードブックの内積を事前に計算してルックアップテーブルを作成し、ルックアップテーブルにアクセスするだけで出力特徴マップを計算できる

5.2. 固定点量子化(Fixed-point Quantization)

定点量子化は、ネットワークのリソース消費量を低減するために有効な手法である。どの部分を量子化するかによって、重み量子化と活性化量子化の2つに大別される。他にも、グラデーションを量子化することで、ネットワーク学習の高速化を図る研究もあります。ここでは、主にテスト段階の計算を高速化する重み量子化と活性化量子化の手法を紹介する。

表2は、どの部分を量子化するか、また、訓練・テスト段階の高速化が可能かどうかによって、これらの方法をまとめたもの。

資料

量子化によるニューラルネットワークのコンパクト化

6.蒸留(Teacher-student Network)

蒸留では、教師モデルを用いて生徒モデルを訓練する。一般的に教師モデルが大きなモデルであるのに対し、生徒モデルはコンパクトなネットワークである。単にクラスラベルを学習するよりも、教師ネットワークから伝達された暗黙知(the dark knowledge)を利用することで、高い精度を得ることができる。

[27]: Distilling the knowledge in a neural network, Hinton et al., 2015
- 提案：教師ネットワークのソフトマックス層の出力を用いて学生ネットワークを学習する知識蒸留（KD）法を提案
[67]: FitNets: Hints for Thin Deep Nets, Romero et al., 2014
- 提案：より深く，より薄い生徒ネットワークを学習するためのFitNetsを提案。ニューラルネットワークの幅よりも深さの方が重要であるため，深さのある生徒ネットワークの方が精度が高いと考えられる。中間層の特徴量マップと教師ネットワークのソフト出力の両方を利用。
[91]: Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer, Zagoruyko et al., 2016
- 提案：中間層の特徴マップを模倣するのではなく，教師ネットワークの注目マップを模倣して生徒ネットワークを学習することを提案

実験・考察

補足・疑問など

低ランク近似を理解する必要あり。CP分解->Tucker分解みたいな感じ。 4.2のThree-component Decompositionはもう一度読む必要あり。

貢献：
提案：

Beluuuuuuga / papers