Conditional Neural Processes

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1807.01613
公開日時：2018/07/04
被引用数（記事作成時点）：67 件
実装コード：https://github.com/deepmind/neural-processes
Publication :

1. どんなもの？

教師あり学習のタスクおいて、ニューラルネットワークとガウス過程の双方の利点を組み合わることで、少ない学習用データセットで学習可能かつ観測点追加の容易性の面で計算効率もよい、汎用的な教師あり学習モデルである Conditional Neural Processes (CNP) を提案している。

2. 先行研究と比べてどこがすごいの？

従来のニューラルネットワークでは、多くの種類の関数をうまく近似できるものの、多量の学習用データセットが必要であるという問題があった。一方、ガウス過程では、回帰の不確実さも考慮することでより少ないデータでうまく関数を回帰できるものの、データの次元数に応じて計算コストが爆発的に増大するという問題があった。本手法では、これらニューラルネットワークとガウス過程の双方の利点を組み合わせることで、対象の関数を比較的少ない学習用データセットで学習可能、かつ観測点追加の容易性の面で計算効率もよい Conditional Neural Processes (CNP) のアーキテクチャを提案している。
このモデルは、包括的で汎用性の高いモデルになっており、様々な教師あり学習のタスクに適用可能となっている。

3. 技術や手法の"キモ"はどこにある？

確率過程による教師あり学習のプロセスのモデル化
教師あり学習のプロセスを、確率過程でモデル化することを考える。入力データを出力データに写像する関数 f : X→Y を定義すると、各データ i に関してとなり、これらの同時確率分布である確率過程が得られる。この確率過程 P は、O,T に関する条件の付き確率分布であるので、以下のようになる。このようにモデル化された確率過程に対して、今考えているタスクは、O の条件の元で全ての x_i∈X に対して、f(x) の値を予想することである。 - 【補足】ガウス過程の適用このタスクにガウス過程を適用することを考える。ガウス過程では、この確率過程の関数 f を、基底関数の線形結合で表現し、重みパラメーター w はガウス分布からサンプリングされるものとする。これによりその線形結合である f もガウス分布に従うことになる。そしてこのガウス分布に従う f の分散値である共分散行列（＝正定値カーネル）を、カーネル関数 k(x,x') で置き換える（＝カーネルトリック）。ガウス過程では、確率過程の関数 f をカーネル関数で調整できるため、少ない学習用データでも推論が可能となる。しかしながら、適切なカーネル関数を設定する必要性や、計算コストが次元数に比例して爆発的に増加する問題がある。（学習用データ数 n + テスト用データ数 m に対しての計算オーダーは、）
Conditional Neural Processes は、観測データのペア O, Tが与えられたときの条件付き確率過程 Q_θ（θ : 確率過程を定義するパラメーター）をモデル化する。確率過程の性質より、観測データのペア O, T の各要素の順列に対して不変である。即ち、順列を変更した O', T' に対して以下のような関係が成り立つ。更に、同時確率分布である確率過程を、この順列不変性の関係により分解すると、以下のように表現できる ※ このガウス過程を含めた確率過程がもつ観測データの順列不変性の性質より、Conditional Neural Processes における観測点追加の容易性が確保されていることに注目。
Conditional Neural Processes のアーキテクチャ

Conditional Neural Processes では、上図のようなアーキテクチャを採用している。ポイントは、以下の３つの点である。
- Encoder : ニューラルネットワーク h を利用して観測データのペアを特徴ベクトル r_i に encode する。
- Aggregator : encode した各特徴ベクトル r_i (i=1,2,…) を１つの固定次元の特徴ベクトル r に集約する。（例：平均化）
- Decoder : 推定対象の入力データを入力、集約した特徴ベクトル r を条件として、ニューラルネットワーク g でパラメーターを推定し、そのパラメーターで出力データ y を推定する。特に回帰タスクでは、ガウス分布のパラメーター（平均値＋分散値）を推定し、そのパラメーターで出力データを推定する。（平均値を回帰結果。分散値を回帰結果の信頼度とする） ※ ニューラルネットワーク g で出力データ y を直接推定するのではなくて、パラメーターを推定し、そのパラメーターで出力データを推定していることに注目。
このアーキテクチャにより、学習用データ数 n + テスト用データ数 m に対しての計算オーダーは、の計算オーダーで計算することができる。 ※ ガウス過程での計算オーダーは、
Conditional Neural Processes の学習処理 Conditional Neural Processes の学習は、以下のように定義される負の対数尤度を最小化するように行われる。 ※ 実際の学習は、この損失関数 L の勾配をモンテカルロ推定し、勾配降下法で重み（パラメーターθ）を更新することで進めていく？

4. どうやって有効だと検証した？

ガウス過程と Conditional Neural Processes で１次元の関数回帰を比較し、Conditional Neural Processes の性能を検証している。

１行目の図は、固定されたカーネル関数の元でのチューニングされたハイパーパラメータをもつガウス過程での回帰結果。２行目の図は、固定されたカーネル関数の元でのチューニングされたハイパーパラメータをもつ Conditional Neural Processes での回帰結果。３行目の図は、複数のカーネル関数の元でカーネルパラメーターを切り替えた Conditional Neural Processes での回帰結果。回帰対象のデータ点は、指数カーネル関数からランダムに生成。 Conditional Neural Processes のニューラルネットワークのアーキテクチャは、MLP（encoder 側３層MLP、decoder 側５層MLP）を使用。

上図より、ガウス過程での回帰結果のほうがより滑らかに回帰出来ているものの、Conditional Neural Processes も少ない学習用データ点で回帰が行えていることが見て取れる。
画像を回帰するタスクで、Conditional Neural Processes の性能を検証している。

上図は、MNIST データセットと CelebA データセットに対して、少数のデータ点から元の画像全体を回帰するタスクで Conditional Neural Processes の性能を検証した結果を示している。少数のデータ点だけでも、うまく元の画像全体を回帰できていることが見て取れる。

Yagami360 / machine-learning-papers-survey

Conditional Neural Processes #38

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献