[Soft-Gated Warping-GAN] Soft-Gated Warping-GAN for Pose-Guided Person Image Synthesis

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1810.11610
公開日時：2018/10/27
被引用数（記事作成時点）：18 件
実装コード：

1. どんなもの？

指定されたポーズへの人物画像変換タスクにおいて、Soft-Gated Warping-GAN のアーキテクチャを使用することにより、任意のポーズでの人物画像変換時に発生する大きな幾何学的変化の課題（オクリュージョン問題、異なる視点での変形など）をある程度解決した GAN ベースの生成モデル。

2. 先行研究と比べてどこがすごいの？

生成モデルによる既存の人物画像変換手法の多くは、局所的な畳込みによって構成されるために、指定のポーズでの人物画像変換時に発生する大きな幾何学的変化の課題（オクリュージョン問題、異なる視点での変形、変形の多様性など）を解決することが出来なかった。本手法では、Soft-Gated Warping-GAN のアーキテクチャを使用することで、これらの画像変換時の幾何学的な変換の課題（オクリュージョン問題、異なる視点での変形など）を、ある程度解決している。

3. 技術や手法の"キモ"はどこにある？

アーキテクチャの全体像

Soft-Gated Warping-GAN のアーキテクチャは、上図のように、Pose-Guided Parsing と Warping-GAN Rendering の２段階のネットワークで構成される。

まず Stage I の Pose-Guided Parsing では、参照人物画像（から生成された参照人物パース画像）と目標人物姿勢情報から、目標人物のパース画像を生成する。次に、StageII の Warping-GAN Rendering では、Pose-Guided Parsing で生成した目標人物パース画像と参照人物画像、目標人物姿勢情報を入力として、特定の変換対象領域にテスクチャの詳細をレンダリング出来るように GAN ベースのネットワークで学習し、最終的な変換先となる目標人物画像を生成する。 ※ ２つのネットワークともに、参照人物画像と目標人物の姿勢情報のみを入力として要求していることに注目。
Pose-Guided Parsing

Pose-Guided Parsing では、参照人物画像（から生成された参照人物パース画像）と目標人物の姿勢情報から、目標人物のパース画像を生成する。このネットワークでの目的は、指定された目標人物姿勢情報から、参照人物パース画像でグメンテーション化された人体の各部位レベルでの目標人物パース画像への写像を学習することである。

入力される参照人物パース画像は、20 channels の one-hot ベクトルとして表現され、姿勢情報のベクトルと組合われネットワークに入力される。ネットワーク内部のアーキテクチャとしては、pix2pix から改良された９つの residual blocks を含む ResNet ライクな encoder-decoder ネットワークで構成される。

また、ネットワークの学習は、人物パース画像を含むデータセットである LIP dataset で学習する。
Warping-GAN Rendering

Warping-GAN Rendering では、Pose-Guided Parsing で生成した目標人物パース画像と参照人物画像、目標人物姿勢情報を入力として、特定の変換対象領域にテスクチャの詳細をレンダリング出来るように GAN ベースのネットワークで学習し、最終的な変換先となる目標人物画像を生成する。このネットワークでの目的は、参照人物パース画像でセグメンテーション化された人体の各部位レベルでの学習結果を利用して、変形対象の領域でのテスクチャの詳細をレンダリングすることを学習することである。

この目的を実現するために、Warping-GAN Rendering では、以下の２つのアーキテクチャ（Geometric Matcher＋Soft-gated Warping-Block）を採用している。 ※ 単純に参照人物パース画像と目標人物姿勢情報から目標人物画像を生成しようとすると、大きな幾何学的変形の必要性が原因でぼやけた画像を生成してしまうので、これら２つのアーキテクチャを採用している。
- Geometric Matcher
  
  CNN ベースの geometric matching 手法である Geometric-matching CNN に着想を得たネットワークで、参照人物画像と目標人物姿勢情報から、目標人物画像の歪んだ画像への変換を学習＆推定する。 ※ Geometric-matching CNN : 論文「Convolutional neural network architecture for geometric matching」
  
  歪んだ画像への変換は、Geometric-matching CNN で提案されているものと同じように、アフィン変換と TPS 変換を組み合わせて、"siamesed convolutional neural network" で行う。
  
  この目標人物の歪んだ画像は、参照人物画像の抽出された特徴量を変換するために生成され、参照人物画像から目標人物画像への変形時の不整合問題を軽減するのに役立つ？（※ 詳細は、後段の Soft-gated Warping-Block 参照）
- Soft-gated Warping-Block
  
  前段の Geometric Matcher で学習した目標人物画像への歪みグリッド（Transformation Grid）を利用して、（参照人物画像＋参照人物パース画像の concat からの？）特徴マップを歪める。
  
  詳細には、以下の式に従って、特徴マップの歪んだ画像を合成する。 ※ ResNet の residual block のように skip connection 構造をもつことに注目 ※ これによりより高レベルの特徴を抽出し、テスクチャの詳細をレンダリングすることが出来るようになる。
  
  この式において、Geometric Matcher からの Transformation Grid W(I) は、残差特徴マップ R(Φ(I)) の soft-gate として機能していることに注目。これにより、さまざまなポーズ指定に応じて、ソフトゲート機能を介して変換度を制御することが出来る。
Generator

Stage I と StageII のネットワークにおける Generator は共に、pix2pix をベースラインとして、9 つの residual block を中間にもつ encoder-decoder ネットワークで構成されている。 ※ StageII のネットワークはこれに加え、Soft-gated Warping-Block の構造を持つ。
Discriminater

StageI と Stage II における識別器は共に、学習の安定化を目的として、pix2pix-HD で採用されている各階層で feature matching loss を取るためのマルチスケール識別器の構造を導入している。
損失関数本手法の損失関数は、以下の式のように、"adversarial loss", "pixel-wise loss", "perceptial loss", "feature matching loss" (=pyramidal hierarchy loss) の線形結合で定義される。

4. どうやって有効だと検証した？

既存の手法と比較して、生成画像の品質が優れていることを定性的に比較している。
各種アーキテクチャや損失関数の効果を Ablation studies で定性的に検証している。

5. 議論はあるか？

この論文で取り組んでいる課題は、２次元画像ベースの仮想試着モデルでの課題と一致している点が多く、この論文で提案されているアーキテクチャは、２次元画像ベースの仮想試着モデルでも応用できそう。
Warping-GAN Rendering での Geometric Matcher は、CP-VTON などの２次元画像ベースの仮想試着モデルでも利用しているものとよく似たアーキテクチャとなっている。

6. 次に読むべき論文はあるか？

Convolutional neural network architecture for geometric matching

Yagami360 / machine-learning-papers-survey

[Soft-Gated Warping-GAN] Soft-Gated Warping-GAN for Pose-Guided Person Image Synthesis #35

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献