服画像と試着者の画像、及び姿勢情報(18チャンネルのヒートマップ)を入力として、試着者に合うように変形して歪んだ服を生成するネットワーク。
基本的には、CP-VTON における GMM [Geometric Matching Module] とよ似たネットワークになっている。
但し、CP-VTON の clothing-agnostic person representation における試着者の Body Shape や Reserved regions を利用せず、代わりに、Body Shape Mask Prediction で試着者の Body Shape のマスク画像を生成して GMM に入力している。
Body Shape Mask Prediction
この Body Shape Mask Predictionは、論文 「Soft-gated warping-GAN for pose-guided person image synthesis」 に着想を得たネットワークで、試着者の別の目標姿勢での Body Shape のマスク画像を生成する。
ネットワークのアーキテクチャとしては、encoder-decoder型のネットワークである。
この Body Shape Mask Prediction での入出力関係を定式化すると、以下のような式となる。
Body Shape Mask Prediction の学習は、以下の式のように、クロスエントロピーとピクセル単位のL1損失関数で定義された損失関数で行われる。
※ Body Shape のバイナリマスク画像の生成(=推定)は、該当するマスク領域を 0 or 1 で判定する一種の分類問題となるので、損失関数をクロスエントロピーで定義する。
※ 正解データとのピクセル単位のL1損失関数で、生成画像の細かい品質を向上させる。
② 更に本手法では、仮想試着の試着部分に注意を向けるために、attention 機構を採用している。具体的には、大まかな目標試着画像 を生成するための Transforme layer L_I と、アテンションマスク A と生成するための attention layer L_A を追加している。
③ そして、以下の式に従って、大まかな目標試着画像 と歪んだ服 T_θ (c) をアテンションマスク A での重み付きで合成し、最終的な試着画像を生成する。
損失関数
Attentive Bidirectional GAN (AB-GAN) の損失関数は、"attention loss", "adversarial loss", "content loss" の線形結合で定義され、更に CycleGAN のように、それぞれの loss で着せ戻しと着せ替えでの loss を定義し、それらの全ての線形結合をとる。
最終的な損失関数は、以下の式のようになる。
attention loss
Attention 機構では、試着対象の領域には高い attention 値を設定し、非対象領域には低い attention 値を設定するものなので、上式の第1項のようなL1損失関数で定義する。
第2項の TV ノルムでの正則化項は、アテンションマスク A の勾配ノルムに制約を課すことで、空間的な滑らかさを確保するために導入している。
adversarial loss
オリジナルの GAN の adversarial loss を採用し、生成器からの生成画像を教師信号の画像に近づけるように作用させる。
但し、この adversarial loss だけでは、変形した服の詳細を保持しながら画像生成を行うには不十分なので、以下で定義する content loss も追加する。
content loss
変形した服の詳細を保持しながら画像生成を行うために、perceptiona loss とピクセル単位のL1損失関数の和で定義される上式のような、content loss を追加する。
※ 第1項は、CP-VTON の TOM における VGG perceptiona loss と同じ式になっている。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
アーキテクチャの全体像
上図は、本手法で提案されているアーキテクチャの全体像を示した図である。 入出力関係としては、服画像と試着者の画像、及び姿勢情報を入力として、同一人物の別の視点からの試着画像を出力するネットワークになっている。 ネットワークは、Shape Enhanced Clothing Deformation と Attentive Bidirectional GAN (AB-GAN) の2段階のネットワークで構成されている。
Shape Enhanced Clothing Deformation
服画像と試着者の画像、及び姿勢情報(18チャンネルのヒートマップ)を入力として、試着者に合うように変形して歪んだ服を生成するネットワーク。 基本的には、CP-VTON における GMM [Geometric Matching Module] とよ似たネットワークになっている。 但し、CP-VTON の clothing-agnostic person representation における試着者の Body Shape や Reserved regions を利用せず、代わりに、Body Shape Mask Prediction で試着者の Body Shape のマスク画像を生成して GMM に入力している。
Body Shape Mask Prediction この Body Shape Mask Predictionは、論文 「Soft-gated warping-GAN for pose-guided person image synthesis」 に着想を得たネットワークで、試着者の別の目標姿勢での Body Shape のマスク画像を生成する。 ネットワークのアーキテクチャとしては、encoder-decoder型のネットワークである。 この Body Shape Mask Prediction での入出力関係を定式化すると、以下のような式となる。
Body Shape Mask Prediction の学習は、以下の式のように、クロスエントロピーとピクセル単位のL1損失関数で定義された損失関数で行われる。 ※ Body Shape のバイナリマスク画像の生成(=推定)は、該当するマスク領域を 0 or 1 で判定する一種の分類問題となるので、損失関数をクロスエントロピーで定義する。 ※ 正解データとのピクセル単位のL1損失関数で、生成画像の細かい品質を向上させる。
Clothing Item Deformation CP-VTON における GMM [Geometric Matching Module] に該当するネットワーク。 但し、CP-VTON の clothing-agnostic person representation を利用せず、代わりに、Body Shape Mask Prediction で生成した試着者の Body Shape のマスク画像と目標姿勢情報の concat を GMM に入力している。
服の変形は、GMM と同じく、TPS変換(薄板スプライン変換)[thin plate spline transformation] で行われる。
このネットワークの学習は、CP-VTON の GMM と同じく、以下の式のような変形した服と教師信号との間のピクセル単位のL1損失関数で行われる。 ※ 変形した服と教師信号は、目標試着者画像 I_B からのセグメンテーションから取得
この Shape Enhanced Clothing Deformation ネットワークにおける最終的な損失関数は、以下の式のように、Body Shape Mask Prediction と Clothing Item Deformation での損失関数の線形結合となる。
Attentive Bidirectional GAN (AB-GAN)
本手法では、CP-VTON とは異なり、Attention 構造を持つ双方向のGAN のアーキテクチャである Attentive Bidirectional GAN (AB-GAN) のアーキテクチャを採用している。 ※ Attention 構造で、仮想試着の試着対象部分・非対象部分の検出を行っている。 ※ 又、CycleGAN のような双方向のアーキテクチャで、着せ替えと着せ戻しを行っている。
Try-On Image Generator 内部のネットワークの詳細動作は、以下のようになる。
① まず、変形した服と {BodyShape+目標姿勢情報+目標試着部画像} をそれぞれ別の UNet に入力し、それぞれの UNet の skip connection からの中間特徴量 F_cloth connection からの中間特徴量 F_cloth, F_human を統合して、仮想試着 decoder F_dec を出力する。 ※ F_cloth は、変形した服の主要な特徴量を取り込んでいる。
② 更に本手法では、仮想試着の試着部分に注意を向けるために、attention 機構を採用している。具体的には、大まかな目標試着画像 を生成するための Transforme layer L_I と、アテンションマスク A と生成するための attention layer L_A を追加している。
③ そして、以下の式に従って、大まかな目標試着画像 と歪んだ服 T_θ (c) をアテンションマスク A での重み付きで合成し、最終的な試着画像を生成する。
損失関数 Attentive Bidirectional GAN (AB-GAN) の損失関数は、"attention loss", "adversarial loss", "content loss" の線形結合で定義され、更に CycleGAN のように、それぞれの loss で着せ戻しと着せ替えでの loss を定義し、それらの全ての線形結合をとる。 最終的な損失関数は、以下の式のようになる。
attention loss
Attention 機構では、試着対象の領域には高い attention 値を設定し、非対象領域には低い attention 値を設定するものなので、上式の第1項のようなL1損失関数で定義する。 第2項の TV ノルムでの正則化項は、アテンションマスク A の勾配ノルムに制約を課すことで、空間的な滑らかさを確保するために導入している。
adversarial loss
オリジナルの GAN の adversarial loss を採用し、生成器からの生成画像を教師信号の画像に近づけるように作用させる。 但し、この adversarial loss だけでは、変形した服の詳細を保持しながら画像生成を行うには不十分なので、以下で定義する content loss も追加する。
content loss
変形した服の詳細を保持しながら画像生成を行うために、perceptiona loss とピクセル単位のL1損失関数の和で定義される上式のような、content loss を追加する。 ※ 第1項は、CP-VTON の TOM における VGG perceptiona loss と同じ式になっている。
4. どうやって有効だと検証した?
既存の手法と比較して、高品質の試着画像を生成できていることを定性的に比較している。
本手法での Shape Enhanced Clothing Deformation (SECD) での服変形と、CP-VTON の GMM での服変形の品質を定性的に比較している。
各種提案手法の効果を abalation study で定性的に比較している。
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献