Pruning neural networks without any data by iteratively conserving synaptic flow

https://arxiv.org/abs/2006.05467
2020 NeurIPS

深層ニューラルネットワークのパラメータを刈り込むことは、学習時とテスト時の両方で、時間、メモリ、エネルギーを節約できる可能性があるため、大きな関心を集めています。最近の研究では、学習と刈り込みのサイクルを繰り返すことで、宝くじの当選券の存在や、初期化時に学習可能な疎なサブネットワークの存在が確認されています。これは、初期化時に、トレーニングをせずに、あるいはデータを見ずに、非常に疎なトレーニング可能なサブネットワークを識別することができるか、という基礎的な問題を提起している。我々は、理論に基づいたアルゴリズム設計により、この問題に対する肯定的な答えを提供します。まず、既存の勾配ベースの刈り込みアルゴリズムが、初期化時にレイヤーコラプス（レイヤー全体の刈り込みが早まり、ネットワークが学習不能になること）に悩まされる理由を説明する保存則を数学的に定式化し、実験的に検証する。また、この理論は、層崩壊を完全に回避する方法を明らかにし、新しい刈り込みアルゴリズムIterative Synaptic Flow Pruning (SynFlow)の動機付けとなっている。このアルゴリズムは、初期化時にスパース性制約のもとでネットワークを通過するシナプス強度の総フローを保存するものと解釈できる。注目すべきは、このアルゴリズムは学習データを参照せず、様々なモデル（VGGとResNet）、データセット（CIFAR-10/100とTiny ImageNet）、スパース性制約の範囲で、初期化時に既存の最先端の刈り込みアルゴリズムと一貫して競合または凌駕していることである（最大99.99％）。このように、我々のデータに依存しない刈り込みアルゴリズムは、初期化時に、どのシナプスが重要であるかを定量化するためにデータを使用しなければならないという既存のパラダイムに挑戦するものである。

1 はじめに

ネットワークの刈り込み，すなわちパラメータを除去してニューラルネットワークを圧縮することは，実用的な展開のためにも，人工的なニューラルネットワーク[8]や生物学的なニューラルネットワーク[9]の理論的な理解のためにも，重要なテーマとなっています．従来，枝刈りアルゴリズムは，学習済みのモデルを圧縮することに重点を置いていた[1, 2, 3, 5, 6]．しかし，最近の研究[10, 11]では，学習と刈り込みを繰り返すことで，ランダムに初期化されたニューラルネットワークの中に，分離して学習すると元のネットワークのテスト精度に匹敵するような疎なサブネットワーク（ウィニングチケット）が存在することが明らかにされています．さらに，これらのウィニングチケットサブネットワークの一部は，データセットやオプティマイザーを超えて一般化できることが示されています[12]．これらの結果は、初期化時に勝ち馬サブネットワークを特定することで、トレーニングをより効率的に行えることを示唆していますが、それを見つけるための効率的なアルゴリズムは提供されていません。一般的に，トレーニングとプルーニングを繰り返してウィニングチケットを特定するには，元のネットワークを単に最初からトレーニングするよりも，かなり多くの計算コストが必要になります [10, 11]．

このように、非常に疎な学習可能なサブネットワークを、初期化時に、一度も学習することなく、あるいは実際にデータを見ることなく、識別することができるのか、というのが基本的な未解決問題である。この目標を達成するために、我々は、初期化時の既存の刈り込みアルゴリズムの限界を調査することから始めて[13, 14]、これらの限界を回避するための簡単な戦略を決定し、最先端の結果を達成する新しいデータにとらわれないアルゴリズムを提供します。

我々の主な貢献は、

層崩壊とは、ネットワークを学習不能にする層全体の早すぎる刈り込みのことであり、刈り込みアルゴリズムは可能な限り層崩壊を回避すべきであるという公理「Maximal Critical Compression」を定式化する（項3）。
1. 勾配ベースのスコアの一般的なクラスであるシナプスサリエンシーが、ニューラルネットワークのすべての隠れユニットと層で保存されることを理論的および経験的に示す
これらの保存則は、大きな層のパラメータが小さな層のパラメータよりも低いスコアを受け取ることを意味し、シングルショット・プルーニングがなぜ最大の層を不均衡にプルーニングし、層崩壊を引き起こすのかを解明する

4.反復的なマグニチュード・プルーニング[10]が層崩壊を回避するという仮説を立てた。これは、勾配降下法がマグニチュード・スコアに保存則を守るよう効果的に促し、反復と組み合わせることで、最大の層の相対的なスコアがプルーニング中に増加するためである(Sec. 5)。

1. 刈り込みアルゴリズムが層崩壊を完全に回避し、かつ、反復的で正のシナプス saliency スコアを使用する場合、最大臨界圧縮を満たすことを証明する（Sec.6）。
1. 最大臨界圧縮を満たすデータに依存しない新しいアルゴリズムIterative Synaptic Flow Pruning (SynFlow)を導入し(Sec.6)、このアルゴリズムがモデルとデータセットの異なる12の組み合わせで最先端の刈り込み性能を達成することを実証的に示す(Sec.7)。

e4exp / paper_manager_abstract

Pruning neural networks without any data by iteratively conserving synaptic flow #547

1 はじめに