LT-GAN: Self-Supervised GAN with Latent Transformation Detection

Parth Patel, Nupur Kumari, Mayank Singh, Balaji Krishnamurthy

2020-10-19

1. どんなもの？

近年の研究により．学習がうまくいったGANでは，分離可能な形で潜在空間中にSemanticsを獲得していることがわかっている．

また，GANがより意味のある形状や大域的な構造を学習できるように，自己教師学習を行う手法が提案されてきている．例えばSS-GANでは，画像を偽物か本物か識別する以外に，Discrimiantorへの入力画像を回転させて，この回転角度を識別させることで高い性能を実現できている．

先行研究では，表現学習においてデータを直接圧縮するよりも，入力データに対する変換自体を学習させることで高い精度を発揮できると提案している．

これは，具体的にはデータに対する変換をサンプリングし，元のデータと変換後のデータから，どの変換が実行されたのか予測させる手法である．

通常のGANの損失関数は minGmaxD=E(log(D(x)))+E(log(1-D(G(z)))) である[13]．

この損失関数は，Dを最大化させることを考えると，Dは実データに対しては予測1と計算し，生成データに対しては予測0と計算することを期待する，つまり実データと生成データを完全に識別できるようになることである．

Gの最小化を考えると，第2項に関してDが予測1，つまりGの生成データを実データと識別するようになると，損失関数が最小化される．

この損失関数を改善させたものがhinge lossである[43]．

GANの学習では入力となるノイズzを正規分布からサンプリングしている．GANの学習は不安定であることが知られており，今までにも学習を安定化させるための研究が進められている[40, 15, 29]．
本研究では，学習安定化のためにSpectral Normalizationを採用している．

近年のGANの応用として挙げられるものは，潜在空間を操作することで画像を編集することである．

本研究ではAETで提案されていたGANによる画像変換を活用することで，学習を安定化させることを目指している．

まず事前分布p(z)からサンプリングした潜在変数zと，生成器が出力した画像I=G(z)が存在する場合，GANによる画像変換を Tϵ(G(z))=G(z+ϵ):ϵ∼p(ϵ) のように表現する．

生成器のパラメータを固定した場合，変換tは，事前分布p(ϵ)からサンプリングした，微小な摂動を発生させる変数ϵでパラメータ化できる．この変換を生成画像に適用することで，変換された画像Tϵ(I)を取得することができる．

本研究では，潜在変数に対してパラメータϵを適用したとき，元の生成画像と変換後の画像は，どのような変換であっても意味が一貫しているという考え方を採用している．

ここで画像から特徴を抽出するEncoderをE(x)と表現する．もしも変換Tϵが与えられていた場合，元の生成画像と変換後の生成画像の変化に対応する特徴表現は以下のようにあらわせる．

これで関数fは，画像の特徴量の違いとその変換の補足することができる．

提案している学習方法では，この関数fに対してf1=f(z1,z1+ϵ1)とf2=f(z2,z2+ϵ2)が与えられたとした場合, 追加のネットワークAを使って，同一のパラメータを使用して変動させた2つの画像に対して，予測した変換が対応しているかどうかを識別させている．

上記の式で損失関数Lは通常のBCEであり，パラメータが同一の場合は1，異なる場合は0をラベルにしている．

Generatorと追加のネットワークAを同時に学習させていくと，損失関数は以下で表現される．

パラメータλは自己教師損失の重みを決定している．またパラメータをサンプリングする際の正規分布には標準偏差がσϵ<σzになるように設定している．