AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data

論文へのリンク

[arXiv:1901.04596] AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data

著者・所属機関

Liheng Zhang, Guo-Jun Qi, Liqiang Wang, Jiebo Luo

Laboratory for MAchine Perception and LEarning (MAPLE)
Huawei Cloud
University of Central Florida
University of Rochester

投稿日時（YYYY-MM-DD）

2019-01-14

1. どんなもの？

動機としては，ラベル付きデータを取得することが難しいシナリオで，教師なし学習によってモデルの性能向上を目指すことである．

本研究では，データを圧縮する（AE Data)ではなくデータへの変換手法を圧縮する（AET）を学習させる新たな教師なし学習手法を提案している．

具体的にはランダムにデータ変換をサンプリングし，AETでは圧縮された特徴量から，単にこの変換手法を予測させるのみである．

背景としては，モデルが元のデータと変換後のデータの構造を適切に捉えることができていた場合，変換手法もうまく予測できると考えられる．

この方法を利用することでパラメトリック，ノンパラメトリック，GANでの様々なデータ変換を適用する(instantiate)ことができること示している．

2. 先行研究と比べてどこがすごいの？

十分なデータが存在していない場合でも，画像分類やそのほかの下流タスクに有用な表現を学習できる教師なし学習方法を考える必要がある．

教師なし学習の文脈で研究されているものはAEやGANである．AEに関しては，新たに提案されているモデルでも，画像を復元するのに十分な潜在表現を学習させるという考え方を基にしている．本研究ではこの学習方式をAE Dataとして明確に分けるようにしている．

反対にGANでは，正規分布から抽出したランダムノイズから画像を生成する形式であり，この生成器に入力するノイズ自体を，出力される画像の潜在表現と捉えることができる．

ノイズに対する潜在表現を獲得するために，生成器をデコーダとしてAE形式でエンコーダを学習させることが可能である．

こうすることで画像が入力された際，Encoderは生成器を通して，元の画像を復元するのに十分なノイズを直接出力できるようになる．[6, 8]

この手法はAEDとGANの強みを組み合わせた手法である

AEとGAN以外にも，様々な自己教師あり学習が提案されている．こうしたモデルでは，自己教師あり学習のために追加の損失関数などが提案されている．[5]ではランダムにサンプリングしたパッチ領域の位置を予測するタスクを解かせたりしている．

他にも[31, 17]では，画像に色付けを行うタスクを解かせている．

その他には[7]では，画像のパッチ領域に適用した変換で疑似的に作成したクラスを識別させるようにしていたり，[10]では画像を90度ずつ回転させて，どの角度で回転させたのかを識別するようにしている．

こうした手法を適用することで，物体の空間構造に対する様々な追加信号をNNに送ることができるようになる．また動画領域でも，[1]では連続フレーム間で動いている物体の動作を推定することで動画から教師なしで特徴を抽出できるようにしている．

対照的に，本研究では教師なしでの潜在表現を，データからではなく変換方法から獲得することを目指している．具体的には，画像を変換するいくつかの演算子をサンプリングし，元の画像と変換後の画像の特徴表現から，こうした演算子を，復元することを目指す．

本研究で仮定していることは，もしも有用な特徴を抽出できている場合は，画像の特徴表現から変換手法を復元できるはずという考えである．この手法AETでは，異なる変換を行った状況下での特徴表現を獲得することに焦点をあてており，静的な空間構造だけではなく，変換を行うことで空間構造がどのように変化するのかも補足することが期待される．

加えてAETでの学習では採用できる変換手法には何ら制限は存在しない．そのためパラメトリック，あるいはノンパラメトリックな画像変換手法を適用することができる．

3. 技術や手法の"キモ"はどこにある？

3.1 定式化

まずデータ変換手法tから，データ変換の集合Tからサンプリングする．この変換tを，データ分布Xからサンプリングした画像xに対して適用し，t(x)を取得する．

最終的な目的は画像xからEncoderを使用して潜在表現E(x)を獲得することである．その一方，元の画像xの潜在表現E(x)と変換後の画像t(x)の潜在表現E(t(x))から変換t^を復元するDecoderを学習させている．

変換を復元する際は画像を直接使用するのではなく，潜在表現から復元を行うため，モデルに対して画像を表現できる能力を有する特徴表現を抽出するように学習できる．

このAETを学習させる際の課題は，特徴抽出器Eと変換復元器Dを同時に学習させている点に集約される．

この課題を解決するために，元の変換tと復元した変換t^に対する損失関数を使用して，予測誤差を定量化させている方法を提案している．

3.2 AETFamily

AETではどのような変換でも簡単に学習に組み込むことが可能である．

変換を3つの種類(パラ，ノンパラ，GAN)に関して議論する．

Parameterized Transformations

これはパラメータθを分布Θからサンプリングすることで変換集合T={tθ|θ∼Θ}を考える．

このようにパラメータ化させることで，損失関数を通してパラメータを最適化させることが可能となる．例としては，アフィン変換や投影変換は3x3行列でパラメータ化することができ，こうした行列により，変換による幾何学的な構造の変化をとらえることができる．

つまり損失関数に関し，適用した行列と復元した行列とのL2損失を最適化させることで，学習を進めることができる．実験でもこうした変換を使って学習させることで高い精度を発揮している．

GAN-Induced Transformations

実画像の多様体に対して，入力を変換する生成器を考えてみる．

[25]では，局所的な生成器を，サンプリングしたノイズzで学習を行っており，入力画像xに対して適用する変換をパラメータ化させている．こうすることで，変換のパラメタzを使用して生成器を G(x,z)と定義して学習させることができる．

変換に対する損失関数としては，サンプリングしたランダムノイズzと復元したノイズz間の損失として表現することができる．画像に関して低レベルな幾何学変換を行う典型的な手法と比較すると，GANによる変換では，より高レベルな表現の変換を実施することができる． (顔画像に対して年齢変化や髪の変化を加えたり，部屋のレイアウトを変化させるなど)

Non-Parametric Transformations

ノンパラ変換も考える．集合Tから変換tをサンプリングすることが難しい場合でも，変換に対する損失関数を考えることができる．これは実際にランダムにサンプリングした画像に対して適用した変換変換に対して，その平均的な変化を図ることで実現できる．

dist()は変換した画像間の距離を測る関数であり，期待値はサンプリングした全画像に対して計算する．

入力となるノンパラ変換tに対して，変換復元器によって変換の推定t^を計算する．パラメタ変換の場合は，変換tをパラメータ化させることでサンプリングすることができる．

しかしノンパラ変換は，パラメータとして空間中からサンプリングすることなどはできない． (?)そこで疑似的にパラメタさせることでサンプリングできるように近似している．これはこの手法の最終的な目的が入力となる変換tを復元することではなく，パラメータ空間中で変換に対する良い推定を行うことが目的だからである．

パラメタ変換も式(1)に導入することができ，損失関数を最小化さえることでAETを学習させることができる．しかし実験では，パラメータを元に損失関数を定義した場合あそれほど性能が向上しなかった・

これは損失関数(1)が，大量に画像をサンプリングしなければ，正確には変換tの差を補足することができないからだと考えられる．

そこでパラメータベースの損失関数を採用しているAETを提案している．

なお本研究では，パラメタ変換tのみに絞って実験を行っている．

4. どうやって有効だと検証した？

CIFAR10での実験で使用したモデルの構造は以下になる．

shimopino / papers-challenge