e4exp / paper_manager_abstract

0 stars 0 forks source link

EigenGAN: Layer-Wise Eigen-Learning for GANs #431

Open e4exp opened 3 years ago

e4exp commented 3 years ago

Generative Adversarial Network(GAN)に関する最近の研究では、生成的CNNの異なる層が合成画像の異なるセマンティクスを保持していることが明らかになった。 しかし、特定の層で表現される意味的属性を制御するための明示的な次元を持つGANモデルはほとんどない。 本論文では、異なる生成層から解釈可能かつ制御可能な次元を教師なしでマイニングすることができるEigenGANを提案する。 具体的には、EigenGANは、直交基底を持つ1つの線形部分空間を各生成層に埋め込みます。 これらの層別部分空間は、目標分布を学習するための敵対的な学習を経て、意味的属性や解釈可能なバリエーションのセットに対応する「固有次元」のセットを各層で自動的に発見します。 特定の固有次元の係数をトラバースすることで、ジェネレータは特定の意味的属性に対応する連続的な変化を持つサンプルを生成することができます。 人間の顔を例にとると、EigenGANは、深い層の部分空間ではポーズや性別などの高レベルの概念を、浅い層の部分空間では色相や色などの低レベルの概念を制御可能な次元として発見することができます。 さらに、線形環境下では、我々のアルゴリズムがPCAと同様に主成分を導出することを理論的に証明しています。 コードはこちらのhttpsのURLにあります。

https://github.com/LynnHo/EigenGAN-Tensorflow

e4exp commented 3 years ago
  1. はじめに

Generative Adversarial Network (GAN) [10]とその亜種 [25, 11, 5, 18]は、高忠実度の画像合成で大きな成功を収めている。 例えば、浅い層は色やテクスチャを検出し、深い層はオブジェクトやパーツに焦点を当てる。 したがって、生成的CNNも同様の特性を持つと予想でき、最近のGAN研究ではこの事実が確認されている[18, 38, 3]。 StyleGAN [18]では、より深い生成層はポーズやメガネなどの高レベルの属性を制御し、浅い層は色やエッジなどの低レベルの特徴を制御することを示している。 Yangら[38]は、シーン合成においても同様の現象を発見し、深い層が空間レイアウトを決定し、浅い層が配色を決定する傾向があることを示した。 同様の結論は、Bauら[3]が異なる層におけるGAN特徴の分解分析でも得られている。 これらの証拠から、ジェネレーターのレイヤーが異なると、抽象度の観点から合成画像のセマンティクスが異なるという特性が明らかになった。 この特性によれば、特別なアルゴリズムを実行することで、よく訓練されたジェネレータの異なる層から意味的属性を特定し[3, 12, 36, 38]、その属性を合成画像上で操作することができる。 例えば、Bauら[3]は、特定の概念(「木」など)に対する因果関係のあるユニットを、ジェネレータの各レイヤーに解剖・介入することで特定しています。 因果関係のあるユニットをオン/オフすることで、合成画像上にその概念が現れたり消えたりする。 ただし、これらの方法はいずれも、十分に学習されたGANジェネレータの後処理アルゴリズムである。 生成器自体はブラックボックスとして動作しており、異なる層で表現される意味的属性を直接制御するための明示的な次元がない。 言い換えれば、後処理アルゴリズムによって各層を深く検査しない限り、異なるジェネレータ層でどのような属性が表現されているのか、またこれらの属性をどのように操作すればよいのかわからないのである[3, 12, 36, 38]。

上記の議論の下、本論文は、「異なる層で表現される意味的属性の明示的な制御を、ジェネレーター自身が自動的に/教師なしで学ぶことができるか」という疑問から始まる。 この目的のために、我々は、完全に教師なしの方法で異なる層のための解釈可能な次元をジェネレータに装備するEigenGANを提案する。 具体的には、EigenGANは、直交基底を持つ線形部分空間モデルを各生成層に埋め込みます。 各部分空間モデルは特定の層に直接埋め込まれているため、部分空間と対応する層の意味的バリエーションとの間に直接的なリンクが確立されています。 一方、敵対的学習により、生成器はデータ分布の主要な変動を捉えようとし、これらの主要な変動は、抽象度の観点から異なる層で別々に表現されます。 そして、部分空間モデルの助けを借りて、特定の層の主変動をさらに直交的に異なる基底ベクトルに分離します。 最後に、各基底ベクトルは、その層のセマンティクスに対応する属性や解釈可能なバリエーションを制御する「固有次元」を発見します。 例えば、図1の上部に示すように、深い層に埋め込まれた部分空間の固有次元は、性別を制御し、最も浅い層に埋め込まれた部分空間の固有次元は、画像の色相を制御します。 さらに、線形環境、つまり1層モデルの下で、我々のEigenGANがPCA[15]のように主成分を発見できることを理論的に証明し、部分空間モデルを異なる生成層に埋め込む強い洞察力と理由を与えます。 さらに、我々のEigenGANがデータ生成モデリングを層ごとの次元拡大ステップに分解することを示す多様性の観点も提供している。

image

e4exp commented 3 years ago

image image