e4exp / paper_manager_abstract

0 stars 0 forks source link

A Generalizable Approach to Learning Optimizers #512

Open e4exp opened 3 years ago

e4exp commented 3 years ago

ニューラルネットワークの最適化学習では、実世界の問題に対する一般化が不十分であることが問題となっていた。 この問題を解決するために、我々は一般化優先の観点から設計されたシステムを説明します。 このシステムは、モデルのパラメータを直接更新するのではなく、新しい特徴、アクション、および報酬関数を用いて最適化ハイパーパラメータを更新するように学習します。 このシステムは、学習時に見られなかったモダリティを含む全てのニューラルネットワークタスクにおいてAdamを凌駕します。 ImageNetでは2倍、言語モデリングタスクでは2.5倍の高速化を達成しています。

e4exp commented 3 years ago

image

なぜディープニューラルネットワークの最適化はまだ自動化されていないのでしょうか? 最適化の設定が学習したモデルの品質に大きく影響するという問題が存在することはわかっています[7]。 このような問題に取り組むことができるツールが存在することもわかっています。 現代の強化学習手法は,Dota 2などの不完全な情報を用いた困難な逐次的意思決定問題の解決において大きな進歩を遂げています[37]。 この分野ではモデルのスケールアップが続けられており[21]、わずかな相対的なスピードアップでも数千ペタフロップ/秒の日数を節約することができます[8]。 これまでの研究[3, 46, 33, 34]では,ニューラルネットワークの最適化方法を学習するという問題に対する解決策が提案されてきましたが,学習分布から外れた問題や学習分布に近い問題では大幅な高速化が見られたものの,学習分布から大きく外れた問題では一般化に限界があり,実際のユースケースに利用されているものは1つもありませんでした. 学習されたオプティマイザが解決しなければならない問題は数多くあるが、我々は、過去の研究[34]と同様に、中核となる問題は一般化であると主張する。 本研究では、実世界の問題に一般化して計算効率を高めることに焦点を当てて、システムの説明と学習済みオプティマイザの新しい設計上の選択の動機を提供します。 なお、この研究は予備的なものであり、論文の中で制限があることをお断りしておきます。

1.1 貢献

既存の手法の多くは,パラメータ更新を学習する一般的な更新規則をゼロから学ぼうとするものである[3, 46, 33, 34]. これに対し、我々は既存の最適化アルゴリズムのプライヤーを可能な限り活用し、代わりにハイパーパラメータ更新を学習する。 このクラスの学習済みオプティマイザーをLHOPT(Learned Hyperparameter Optimizers)と呼んでいます。 結果として得られるオプティマイザーは、手作業で設計されたオプティマイザーの間を補うデータ駆動型のスケジュールを持っていると解釈することができます。 ハイパーパラメータを更新する学習の一般的な枠組みを提示することに加えて、一般化優先の観点から学習済みオプティマイザーの多くの設計決定を再検討し、学習済みオプティマイザー全般の行動、特徴、報酬関数に関する新しいアプローチを提示する。

我々のLHOPTは、チューニングなしで一般化することができる。 ImageNet [13]において、AdamW [26]の学習率とスケジュールを調整した場合と比較して、約2倍のスピードアップを達成した。 また、MLPerf [29]のベースラインである音声認識とニューラル協調フィルタリングの学習分布が最も異なる2つのベースラインを上回っています。

最後に、LHOPTのハイパーパラメータ・スケジュールを、より小規模な言語モデリング・タスクから取得し、十分にチューニングされた言語モデリング・コードベースに適用したところ、2.5倍の高速化を実現しました。 このシナリオでは、オプティマイザは平均170GPU秒の内部最適化問題で学習されたにもかかわらず、最大300GPU日かかるすべてのモデルに一般化されました(図2参照) - 5桁以上の一般化です。 LHOPTを使用することが、ニューラル・ネットワーク・タスクのデフォルト・オプティマイザーよりも常に優れていると主張しているわけではありませんし、LHOPTが最先端の結果を得るために最適であると主張しているわけでもありません。 本研究の主な貢献は、学習したオプティマイザーが実際のニューラル・ネットワーク・タスクに一般化できることを実証したことであり、標準的なアプローチから外れ、純粋に一般化に焦点を当てた更なる取り組みに刺激を与えることを期待しています。

e4exp commented 3 years ago

5 結論

私たちは、何よりも汎用性を優先した最適化器の学習方法を提案します。 ImageNetでは2倍、大規模な言語モデリングでは2.5倍の高速化を実現し、実用的なニューラルネットワークタスクの大規模なセットではチューニングされたAdamベースラインを上回るなど、学 習分布とは大きく異なる様々なタスクで一般化に成功しました。 セクション4.6でOnlyNQM LHOPTが一般化に失敗したことや、セクション4.4.1のGMFタスクがLHOPTがベースラインを下回った唯一のタスクであったことから、特にディープネットワークの最適化には、当社のオプティマイザーが利用する何らかの共通点があると考えられます。 これらの結果は、一般化するオプティマイザーの学習に希望を与えるものであると考えています。