MAML:Model Agnostic Meta-Learning for Fast Adaption of Deep Networks

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1703.03400
公開日時：2017/03/09
被引用数（記事作成時点）：908 件
実装コード：https://github.com/cbfinn/maml
Publication :

1. どんなもの？

メタ学習のタスクにおいて、各機械学習タスクやモデルを確率的勾配法で学習することで、様々な機械学習モデルや機械学習タスクに対して適応可能で、素早い学習を実現したメタ学習手法。

2. 先行研究と比べてどこがすごいの？

従来の機械学習手法の多くは、予めモデルを定めてそのモデルのパラメーターを学習するというフレームワークになっているが、この方法では多量の学習用データが必要となるという問題が存在する。一方、メタ学習と呼ばれる手法では、モデルのパラメーターのみではなく学習規則などのより高レベルのフレームワーク自体も学習する。これにより、少数の学習用データでうまく学習できるようになるメリットがある。但し、このようなメタ学習の手法では、学習に必要なパラメーター数が拡張されてしまい、計算コストは高くなるという問題がある。

本手法（MAML）では、このようなメタ学習における問題を解決するために、機械学習の学習で一般的に用いられる確率的勾配法を採用している。機械学習の学習で一般的に用いられる勾配法で学習しているので、様々なモデルやタスク（回帰問題、分類問題、方策勾配の強化学習等）に適用可能であり、又、共通の内部表現が得られるので、新しいタスクにおいても素早いメタ学習が可能となる。

3. 技術や手法の"キモ"はどこにある？

メタ学習の問題設定各種機械学習タスクは、以下の式のように、観測データや出力データや損失関数などに依存した関数で定義できる。
メタ学習では、タスクの分布上のタスクの内、適用したいタスクを考えることになる。例えば、K-shot learning では、モデルは K 個のサンプリングされたタスクに対して、各タスクでの損失関数 Li を逆伝搬することで学習される。メタ学習では、あるタスクがサンプリングされ、各タスクで与えられる K 個のサンプルと損失関数 Li の逆伝搬で学習され、タスクの新しいサンプルで推論処理を行う。その後、テスト用データに対するエラーで、機械学習モデル f を改善を行う。
アルゴリズム
本手法（MAML）ではまず、各々のタスクに対して、以下の式のように、確率的勾配法に基づく更新式で各々のモデルのパラメーターを更新する。そして、以下の式のように、全てのタスクに対しての損失関数の総和で定義された目的関数を最小化するように、確率的勾配法を用いて全体のパラメーター θ を更新しながらメタ学習を行う。この確率的勾配法では、モデルのパラメーター θ に関しての損失関数の変化で学習を行うため、様々なモデルに適用できる。（但し、モデルのパラメーターθに関しての損失関数 L が滑らかな関数になっている必要はある。）更に、様々なモデルを同じ勾配法で学習することで、様々なタスクに適用可能で汎用的な内部表現を獲得でき、これにより、他のタスクの学習をパラメーターの初期値から始めても、この汎用的な内部表現で素早く学習することができるようになる。本手法のアルゴリズムをまとめると、以下のようになる。

4. どうやって有効だと検証した？

回帰問題への適用から MAML の性能を検証している。上図は、MAML ありと MAML なしのファインチューニングされたモデルで sin 波形の回帰問題を比較した図である。 MAML なしでは、少ないデータセットでもうまく学習できていないのに対し、MAML では、少ないデータセットでもうまく学習できていることが見て取れる。

Yagami360 / machine-learning-papers-survey

MAML:Model Agnostic Meta-Learning for Fast Adaption of Deep Networks #39

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献