e4exp / paper_manager_abstract

0 stars 0 forks source link

On the geometry of generalization and memorization in deep neural networks #585

Open e4exp opened 3 years ago

e4exp commented 3 years ago

大規模なニューラルネットワークが学習データの記憶をどのように回避しているかを理解することは、その高い汎化性能を説明する鍵となる。 本研究では、ディープネットワークにおいて、いつ、どこで記憶が行われるかという構造を調べるために、最近開発されたレプリカベースの平均場理論的な幾何学的解析手法を用いる。 その結果、すべての層が、特徴を共有する例から優先的に学習することがわかり、この挙動を汎化性能に結びつけることができた。 記憶は、オブジェクト多様体の半径と次元が小さくなることにより、深い層で主に起こるが、初期の層はほとんど影響を受けない。 このことから、最後の数層の重みを、記憶が顕著に起こる前の初期のエポックに戻すことで、汎化能力が回復することが予測され、実験で確認された。 さらに、モデルの大きさを変えて汎化を調べることで、二重降下現象とモデルの形状との関連性を明らかにした。 最後に、解析により、ネットワークは学習の初期段階で記憶を回避することがわかった。 これは、初期化に近い段階では、並べ替えられた例からの勾配の寄与が小さいためである。 これらの発見は、深層ニューラルネットワークの層間における記憶の構造、そのような構造の要因、多様体の幾何学的特性との関連性について、定量的な証拠を提供するものである。

e4exp commented 3 years ago

1 INTRODUCTION

ディープニューラルネットワークは、学習例よりも多くの学習可能なパラメータを持っており、一般化可能な解に収束するのではなく、単にデータを記憶してしまう可能性がある(Novakら、2018)。 さらに、標準的な正則化手法は、ランダムなラベルの記憶を排除するには不十分であり、ネットワークの複雑さの尺度は、大規模なニューラルネットワークの一般化可能性を考慮することができません(Zhang et al., 2016; Neyshabur et al., 2014)。 しかし、記憶するソリューションが存在していても、ニューラルネットワークが実際に学習することはほとんどありません(Rolnick et al. 最近の研究では、アーキテクチャと確率的勾配降下法の組み合わせにより、学習ダイナミクスが暗黙的に汎化可能な解に向かってバイアスされることが示されている(Hardt et al., 2016; Soudry et al., 2018; Brutzkus et al., 2017; Li and Liang, 2018; Saxe et al., 2013; Lampinen and Ganguli, 2018)。 しかし、これらの主張は、線形ネットワークまたは2層の非線形ネットワークを研究しています。 深層神経ネットワークについては、ネットワークの層のどこで、いつ、暗記が発生しているのか(例えば、すべての層で均等に発生しているのか、深さに応じて徐々に増加しているのか、初期または後期の層に集中しているのか)、この構造のドライバーは何なのかなど、暗記の構造について未解決の問題が残っています。 固有値分解のような線形ネットワークの分析ツールは、非線形ネットワークには直接適用できないので、ここでは、統計物理学のレプリカ平均場理論に基づいて、最近開発された幾何学的プローブ(Chung et al.2018; Stephenson et al.2019)を採用して、学習ダイナミクスとその結果としての記憶の構造を分析する。 このプローブは、層の容量だけでなく、理論によって明示的にリンクされた物体多様体の幾何学的特性も測定します。 その結果、深層ニューラルネットワークは、初期の層やエポックではランダムにラベル付けされたデータを無視し、代わりに一般化した特徴を学習することがわかった。 これは、マニフォールドの半径と次元が小さくなることに起因しますが、初期の層ではほとんど影響を受けません。 注目すべきは、この構造は、勾配が深さとともに消滅することによって生じるものではないということである。 それどころか、解析的には、初期化付近では、ノイズ例からの勾配は全体の勾配にほとんど寄与せず、ネットワークは、同じクラスのオブジェクトに共通する線形特徴からなる「共有特徴」の存在により、ノイズを無視することができることを示している。 実用的には、ネットワークの最終層のパラメータを、記憶の構造的特徴が発生する前の初期のエポックにロールバックすることで、汎化を取り戻すことができます。 さらに、モデルのサイズが大きくなると汎化能力が低下し、その後上昇するという「二重降下」現象は、幾何学的プローブで測定したオブジェクト多様体の非単調な次元拡大と関連している。 また、半径や中心相関などの他の幾何学的尺度はモデルサイズに対して単調であるのに対し、多様体の次元は二重下降します。 我々の分析は、ディープネットワークにおける記憶の構造を明らかにし、ニューラルネットワークにおける学習の効果を追跡する上で、多様体の幾何学的特性を測定することの重要性を示している。