e4exp / paper_manager_abstract

0 stars 0 forks source link

Visualizing the Loss Landscape of Neural Nets #603

Open e4exp opened 2 years ago

e4exp commented 2 years ago

ニューラルネットワークの学習は,非凸性の高い損失関数の「良い」最小化器を見つけられるかどうかにかかっています. ある種のネットワークアーキテクチャ(スキップ接続など)は、学習しやすい損失関数を生成し、選択された学習パラメータ(バッチサイズ、学習率、オプティマイザ)は、一般化しやすい最小化器を生成することはよく知られています。 しかし、これらの違いの理由や、損失関数の構造への影響についてはよくわかっていません。 本論文では、さまざまな可視化手法を用いて、ニューラル損失関数の構造と、損失ランドスケープが汎化に与える影響を探ります。 まず、損失関数の曲率を可視化し、損失関数を横に並べて比較するのに役立つ単純な「フィルタ正規化」手法を紹介する。 また、ネットワークアーキテクチャが損失地形にどのような影響を与えるのか、学習パラメータが最小化器の形状にどのような影響を与えるのかを、様々な可視化手法を用いて検証します。

e4exp commented 2 years ago

1 はじめに

ニューラルネットワークを学習するには,高次元の非凸損失関数を最小化する必要があります. この作業は,理論的には困難ですが,実際には簡単な場合もあります. 一般的なニューラル損失関数の学習はNP困難であるにもかかわらず[2],単純な勾配法では,学習前にデータやラベルがランダム化されていても,大域的最小化(学習損失がゼロまたはゼロに近いパラメータ構成)が見つかることが多い[42]. しかし,このような良好な動作は普遍的なものではなく,ニューラルネットの学習可能性は,ネットワークアーキテクチャ設計の選択,オプティマイザの選択,変数の初期化,およびその他のさまざまな考慮事項に大きく依存します. 残念ながら、これらの選択が損失面の構造に与える影響は明らかではありません。 損失関数の評価には膨大なコストがかかるため(トレーニングセットのすべてのデータポイントをループする必要がある)、この分野の研究は主に理論的なものにとどまっている。 視覚化は、ニューラルネットワークがなぜ機能するのかといういくつかの重要な疑問に答えるのに役立つ可能性があります。 特に、非凸性の高いニューラルロス関数をなぜ最小化できるのか? また、なぜ結果的に最小値が一般化されるのか? これらの疑問を明らかにするために、高解像度の視覚化を用いて、ニューラル損失関数の経験的な特徴を示し、ネットワークアーキテクチャの選択の違いが損失ランドスケープにどのように影響するかを調べます。 さらに、ニューラルロス関数の非凸構造が学習可能性にどのように関係するか、また、ニューラルミニマムの形状(シャープネス/フラットネス、および周囲のランドスケープ)が一般化特性にどのように影響するかを調べます。 これを意味のある方法で行うために、我々は単純な「フィルタの正規化」スキームを提案し、学習中に見つかった異なる最小値を並べて比較することを可能にする。 そして、様々な手法で発見された最小値のシャープネス/フラットネス、ネットワークアーキテクチャの選択(スキップ接続の使用、フィルタの数、ネットワークの深さ)が損失地形に与える影響を、視覚化して調べます。 我々の目標は、損失関数の形状がニューラルネットの汎化にどのように影響するかを理解することです。

1.1 概要

損失関数を意味のある形で可視化する方法を研究する。 そして,これらの可視化手法を用いて,損失関数の形状がどのように汎化誤差や学習可能性に影響するかを探る. 具体的には、以下のような課題を解決する。

image