Beluuuuuuga / papers

0 stars 0 forks source link

Effective hyperparameter optimization using Nelder-Mead method in deep learning #2

Open Beluuuuuuga opened 4 years ago

Beluuuuuuga commented 4 years ago

論文情報

https://ipsjcva.springeropen.com/track/pdf/10.1186/s41074-017-0030-7?site=ipsjcva.springeropen.com Yoshihiko Ozaki, Masaki Yano, and Masaki Onishi

一言で言うと

ネルダーミート法を用いたハイパーパラメータ最適化により、年齢/性別分類に置いて一番良い結果を示した

背景

DNNモデルのハイパーパラメータ最適化に対して、伝統的にグリッドサーチやランダムサーチが使用されていたが、ハイパーパラメータの数に対して指数関数的に探索空間が増大する

深層学習では、ハイパーパラメーター最適化問題を確率的ブラックボックス最適化問題として定式化して、ノイズの多いブラックボックス目的関数f(x)を最小化する

image

ノイズを含んだ形で値を観測する image

ブラックボックス最適化なので、微分のように数理的最適化を行うことができない DNNの評価関数はトレーニングとテストのデータが必要であり、めんどくさい (expensive)

ベイズ最適化とCMA-ESはDNNハイパーパラメータ最適化として期待されている ベイズ最適化では、最適化のパフォーマンス(ここでのパフォーマンスは全体の?)強く影響するカーネルや関数があり、非凸関数を毎回のイテレーションで最適化する必要がある。一方、CMA-ESでは、十分なパフォーマンスを得るためにいくつかの母集団と世代が必要です。 このような計算は簡単に並列化できますが、かなりの計算リソースが必要。

貢献

提案

実験・考察

補足・疑問など

専門単語

略語

英単語

Beluuuuuuga commented 4 years ago

翻訳

4貧弱なハイパーパラメータ設定の検出 DNNはハイパーパラメータ設定に非常に敏感です。その結果、一部のハイパーパラメーター(学習率など)がわずかに不適切であるため、トレーニングが失敗する可能性があります。 適切なハイパーパラメータ値が与えられると、トレーニングの損失は各反復で減少します(図6、上のグラフ)。それ以外の場合、実行された反復回数に関係なく、トレーニング損失は減少しません(図6、下のグラフ)。 人間の専門家の利点は、トレーニングの失敗を検出し、早期に終了できることです。 Domhan et al。は、学習曲線予測を使用して、このようなトレーニングの失敗を検出して終了することにより、ハイパーパラメータ最適化手法を加速する手法を提案しました[17]。さらに、クライン等。は、DNN学習曲線をモデル化するための特殊なベイジアンニューラルネットワークを提案しました[18、19]。アルゴリズム5を適用して、トレーニングの失敗を早期に検出します。 この方法はハイパーパラメータを直接最適化するのではなく、ハイパーパラメータ最適化方法を加速することに注意してください。ハイパーパラメータ設定が不十分な多数のトレーニング反復が最適化プロセスに表示される場合、この検出プロセスにより、最適化メソッドの実行時間が改善されます。 実験では、この方法をすべてのハイパーパラメータ最適化方法に適用します。nはトレーニング反復の10%に等しく、tは0.8に等しくなります。これらの値は、経験に基づいて選択されます。図6からわかるように、ハイパーパラメータ設定が不十分な場合の学習曲線は、特徴的で簡単に検出できます。したがって、nとtを決定するのにあまり注意する必要はありません。

5数値結果 計算実験を実行して、さまざまなデータセット、タスク、および畳み込みニューラルネットワーク(CNN)と組み合わせて実数および整数のハイパーパラメーターを最適化し、ランダム検索、ベイズ最適化、CMA-ES、座標検索、およびネルダーミード法のパフォーマンスを比較します。各メソッドの実験設定を表1に示します。ベイジアン最適化と座標検索メソッドを初期化するために、最初の100個のランダム検索評価を使用します。 CMA-ESおよびベイズ最適化の評価と初期化パラメーターの数は、文献[10]を参照して決定されます。進化型計算フレームワークであるPython(DEAP)[20]の分散型進化アルゴリズムを使用してCMA ESを実装します。さらに、整数値を直接処理できない最適化メソッドの場合、整数ハイパーパラメーターは連続値として処理され、目的関数の評価時に丸めが実行されます。

5.3結果 実験は、32の最新のGPUを使用して1か月間実行されます。実験結果を表11、12、13、および14に示します。すべての実験で、NelderMeadメソッドは最小の損失と分散の両方を実現します。 分散が小さいことは、メソッドの初期値が結果に大きな影響を与えないことを示唆しています。さらに、性別分類でNelder-Mead法によって検出された最良の解との相互検証の精度は87.20%(±1.328024)であり、年齢分類の精度は51.25%(±5.461970)です。これらの値は、文献で報告されている以前の最先端の結果(86.8%(±1.4)および50.7%(±5.1))よりも高くなっています[26]。この方法の安定性と検索パフォーマンスは素晴らしいです。

座標検索方式は、ネットワーク内のLeNetおよびBatch-Normalized Maxout Networkでも優れた結果を達成します。ただし、座標検索法は、正の基底の各ベクトルを使用して点を検索します。したがって、次元数が増えると、収束速度が低下します。これが、より多くのハイパーパラメーターを持つ年齢/性別分類CNNで座標検索メソッドが機能しない理由であると思われます。したがって、座標検索法ではなく、Nelder-Mead法を使用する必要があります。文献[9]に示されているように、CMA-ESはより良いパラメーターを早期に見つけるため、ランダム検索よりも優れています。ベイジアン最適化に同じハイパーパラメーターを使用しているにもかかわらず、この方法は年齢の推定には適していますが、他のタスクには適していません。これは、ベイズ最適化では、与えられたタスクに応じてハイパーパラメーターを注意深く調整する必要があることを示しています。

平均損失グラフ(図9、10、11、12)は、Nelder-Mead法が迅速に適切な解を見つけ、他の方法より速く収束することを示しています。ハイパーパラメータ最適化の目的関数はマルチモーダルであり、同様の結果を達成する多くの局所最適が存在することが予想されます。 Nelder-Mead法を使用して、最大の検索空間を持つネットワークである性別分類CNNのハイパーパラメーターを最適化する追加の実験により、この特性を確認しました。各実験の600回の評価後の最適化されたハイパーパラメーター設定は、図13の平行座標プロットを使用して示されています。図では、サーチスペース内のポイントは、平行軸に頂点を持つポリラインとして表されます。 i番目の軸上の頂点の位置は、ハイパーパラメーターxiの値に対応します。損失が小さいポリラインは濃い色で表示されます。

実験結果は、ネルダーミード法が毎回異なるポイントに収束し、目的関数がほぼマルチモーダルであることを示しました。異なるハイパーパラメータ設定でも同様の損失が発生しました。  表13と図13から、同様の結果を達成する多くの局所最適値が存在すると推定します。 このような場合、Nelder-Mead法は、遠方の点の目的関数値の影響を受けずに、直接局所最適に収束する傾向があります。対照的に、他の方法はグローバル検索を実行します。たとえば、ベイジアン最適化とCMA-ESは、グローバルオプティマの潜在的な候補を見つけようとし、ネルダーミード法と比較してローカル最適を見つけるためにより多くの反復を必要とします。

ハイパーパラメータ設定の不十分な検出率(表15、16、17、および18)によると、平均して、各実験の実行の約8、1、33、および26%がハイパーパラメータ設定が不十分であるとして検出され、最適化が加速されます。検出率に比例します。特に、年齢/性別分類のCNNは、ハイパーパラメーター設定に非常に敏感になる傾向があります。

6結論 この研究では、DNNハイパーパラメーター最適化の方法をテストしました。ネルダーミード法がすべての実験で良好な結果を達成したことを示しました。さらに、[26]で提案されたCNNハイパーパラメーターを最適化することにより、Adience DBを使用して年齢/性別分類で最先端の精度を達成しました。複雑なハイパーパラメータ最適化手法は実装が難しく、パフォーマンスに影響する敏感なハイパーパラメータがあります。したがって、非専門家がこれらの方法を使用することは困難です。対照的に、ネルダーミード法は使いやすく、多くの場合、そのような複雑な方法よりも優れています。私たちの実験では、文字認識と年齢/性別分類のためにDNNのハイパーパラメーターを最適化しました。これらのタスクは重要であり、長い間よく知られています。しかしながら、一般的な物体認識データセットを使用して提案された方法を評価することが望ましい。そのため、今後は他のデータセットを用いて提案手法の評価を行う予定です。初期パラメーターへの依存性とカテゴリー変数の最適化の詳細な分析も、今後の作業の焦点になります。