MG-VTON [Towards Multi-pose Guided Virtual Try-on Network]

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1902.11026
公開日時：2019/02/08
被引用数（記事作成時点）：2 件
実装コード：非公開

1. どんなもの？

試着者が多様なポーズをとっている場合もうまく仮想試着出来るようにした2次元画像ベースの仮想試着 [virtual try-on] モデル

2. 先行研究と比べてどこがすごいの？

従来の２次元画像ベースの仮想試着モデル（VTON、CP-VTON等）では、試着者が正面立ちをしていて手を横におろしているような固定ポーズでしかうまく試着が行えなかったが、この仮想試着モデルでは、そのような固定ポーズだけではなく様々な姿勢に対しても、仮想試着を行えるようにしている。
２次元画像ベースの仮想試着モデルなので、試着者や服の3Dモデルを必要せず、3Dモデル構築の手作業が不要である。

3. 技術や手法の"キモ"はどこにある？

以下のような４段階のプロセス「Conditional Parsing Learning」、「GMM [Geometric Matching Module]」、「Warp-GAN」、「Refinement Render」で様々な姿勢に対しての仮想試着を可能にしている。
1. Conditional Parsing Learning : Conditional Parsing Learningでは、まず参照人物画像を3つのバイナリマスク（Hair Mask, Face Mask, Body Shape）に分解し、それら３つのバイナリマスクを生成器への入力として、人物パース画像を予想する。この際に、以下のような cGAN ベースのネットワークで学習を行いながら、試着者の人物パース画像を本物に近づけていく。ここで、生成器のネットワークは、ResNet ベースのネットワーク構成で、識別器のネットワーク構成は pix2pix-HD ベースのネットワーク構成となる。ネットワークの損失関数は、以下の式のように、一般的な GAN の adversial loss と生成器が生成した人物パース画像と教師データとの間のピクセル単位でのL1損失関数で定義される。
2. GMM [Geometric Matching Module] : 試着服を対象の試着者の形状にフィットするように、以下のようなネットワークで end-to-end で学習し、整形されて歪んだ服を出力するモジュール。 ※ この GMM は、CP-VTON で提案されているネットワーク。
  
  この GMM の損失関数は、以下の式のように、整形して歪んだ服とその教師信号と間の ”ピクセル単位での” L1損失で定義される。
3. Warp-GAN : Conditional Parsing Learning が生成した人物パース画像とその姿勢情報、参照人物画像の服部分を除いた人物画像、及び、GMM が生成した整形されて歪んだ服と生成器への入力として、大まかで荒い試着合成画像を生成する。この際に、以下のような cGAN ベースのネットワークで学習を行いながら、試着合成画像の大まかな形状を本物に近づけていく。この Warp-GAN の損失関数は、以下の式のように、"adversarial loss", "perceptual loss", "feature loss", "L1 loss" との線形結合で定義される。
4. Refinement Render : 試着服を対象者の形状に合うように歪ませた結果、服のテスクチャの詳細がぼやけてしまうが、この服のテスクチャの詳細の品質を回復させるためのネットワーク。 ※ CP-VTON での TOM [Try-On Module] のようなネットワークになっている。
  
  この refinement render では、まず ResNet で、構成マスクを出力（推定）する。そして、この構成マスクを用いて、以下の式ような歪んだ服と合成画像への直接的な貼り付けにより、合成画像を生成する。また、refinement render の損失関数は、以下のように定義される。

4. どうやって有効だと検証した？

既存の有名なデータセット（DeepFashion）と新しく収集したデータセット（MPV）で、従来手法よりも定性的にも定量的にも優れていることを検証している。

5. 議論はあるか？

Stage 1 (Conditional Parsing Learning) を、人物画像のパース画像生成器として別途利用可能か？
Stage 3 (Warp-GAN) or Stage 4 (Refinement Render) の結果と元の人物画像で、CP-VTON の TOM のようなマスク画像の合成を行うことで、合成画像の顔のぼやけも解消できる？

Yagami360 / machine-learning-papers-survey

MG-VTON [Towards Multi-pose Guided Virtual Try-on Network] #5

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？