GAN における人物画像の生成タスクにおいて、3つの要素(Foreground, Background, Pose)それぞれで分岐した画像の再構成ネットワークで、本物人物画像の埋め込みを行うステージと、ガウスノイズからサンプリングされた入力ノイズを学習されたネットワークで埋め込み、それら本物画像と偽物画像の埋め込みベクトル間で敵対的学習を行うステージという2つのステージから構成されるアーキテクチャを用いて、潜在空間を distanglement し、生成画像における3つの要素(Foreground, Background, Pose)の制御可能性を高めた GAN 手法。
2. 先行研究と比べてどこがすごいの?
従来の GAN 手法では、高品質でリアルな画像を生成することは実現できていたが、生成画像の制御可能性(=ユーザーが指定した人物の容姿や服の色、姿勢などに沿った画像を生成すること)に課題が存在した。
本手法では、3つの要素(Foreground, Background, Pose)それぞれで分岐した画像の再構成ネットワークで、本物人物画像の埋め込みを行うステージと、ガウスノイズからサンプリングされた入力ノイズを学習されたネットワークで埋め込み、それら本物画像と偽物画像の埋め込みベクトル間で敵対的学習を行うステージという2つのステージから構成されるアーキテクチャを用いて、潜在空間を distanglement し、生成画像における3つの要素(Foreground, Background, Pose)の制御可能性を高めている。
0. 論文情報・リンク
1. どんなもの?
GAN における人物画像の生成タスクにおいて、3つの要素(Foreground, Background, Pose)それぞれで分岐した画像の再構成ネットワークで、本物人物画像の埋め込みを行うステージと、ガウスノイズからサンプリングされた入力ノイズを学習されたネットワークで埋め込み、それら本物画像と偽物画像の埋め込みベクトル間で敵対的学習を行うステージという2つのステージから構成されるアーキテクチャを用いて、潜在空間を distanglement し、生成画像における3つの要素(Foreground, Background, Pose)の制御可能性を高めた GAN 手法。
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
アーキテクチャの全体像
Stage I : Disentangled image reconstruction
Stage II Embedding feature mapping :
推論フェイズでの動作(ガウスのノイズからのサンプリング)
損失関数 本手法では、StageI と StageII の2段階のプロセスに分かれているので、損失関数もそれぞれのステージで別々に定義される。(=ステージ間は end-to-end ではない)。
まず、Stage I での損失関数は、以下の式のように、オリジナルの adverarial loss とピクセル単位の L1 損失関数で定義される。 ※ ピクセル単位の L1 損失関数で、再構成画像の局所的な詳細を入力画像に近づけるようにする。
4. どうやって有効だと検証した?
潜在空間内での入力ノイズを線形補間したときの生成画像で、うまく3つの要素(Foreground, Background, Pose)を distanglement できていることを定性的に検証している
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献