Stage2 では、参照人物画像と Stage1 で生成した参照人物パース画像から目標の姿勢への ClothFlow を推定し、その ClothFlow を元に参照画像の各ピクセルの座標変換を行い、目標の歪んだ服とパース画像を生成する。
※ ClothFlow は、衣装アイテム(帽子、服、ズボン、靴など)に限定されたフローになっていることに注目
参照人物画像と Stage1 で生成した参照人物パース画像から目標の体型への ClothFlow を直接推定すること、その大きな幾何学的変化のために困難なので、動画タスクにおける OpticalFlow を推定するモデルに着想を得て、ピラミッド型のアーキテクチャである cascaded warping network のアーキテクチャを採用している。
※ 動画タスクにおける OpticalFlow を推定するモデル : 論文 「Flownet 2.0: Evolution of optical flow estimation with deep networks」、「Optical flow estimation using a spatial pyramid network」
- Dual Feature Pyramid Networks
Clothing Flow の推定プロセスでは、まず前段の pyramid networks からの高レベルで大域的な特徴マップに対して、参照画像と目標画像間の大まかな Clothing Flow を推定し、次に pyramid networks からの低レベルで局所的な特徴マップに対して、参照画像と目標画像間の詳細な Clothing Flow を推定する。
より詳細には、まず前段の pyramid networks からの目標画像と参照画像それぞれの高レベルで大域的な特徴マップ S_N,T_N の concat E_N ([S_N,T_N ]) から初期の Clothing Flow F_N を推定する。その後、より低レベルで局所的な特徴マップの concat から初期の Clothing Flow F_N を改善した Clothing Flow を生成する。
- 損失関数
Stage2 の cascaded warping network の学習は、以下の式で定義される損失関数を最小化することで行われる。
- perceptial loss about ROI :
歪んだ服 とその教師信号 c_t との間のピクセル単位の L1 損失関数の和で定義される perceptial loss を採用する。
※ perceptual loss なしだと、RGBのカラー画像でぼやけた画像を生成してしまうので、perceptual loss も追加している。
但し、perceptial loss のみでは、外見が似ている異なる服で不正確な服の歪みを生成してしまうので、本手法では以下で述べる structure loss と下式で定義される服の region-of-interest (ROI) に関しての perceptial loss を新たに採用している。
これにより、人物パース画像におけるラベル i という特定の region-of-interest (ROI) のみでの服変形に限定されることで、他の領域や背景の影響を受けず、より一貫した変形結果が得られる。
- structure loss
perceptial loss のみでは、外見が似ている異なる服で不正確な服の歪みを生成してしまうので、本手法では前述の perceptial loss about ROI に加えて、新たに上式で定義される structure loss で歪んだ服の領域にさらなる構造的成約を課す。
- flow regularization loss
本手法での ClothFlow では、従来のアフィン変換+TPS変換による服変形の手法よりも、高い自由度での変形を可能にすることで、大きな幾何学的変形をともなる服変形でもうまく対応できるようにしているが、高い自由形式故に適切な制限なしでは、不自然なアーティファクトが生じてしまう。
そのため、上式で定義される TV ノルムでの正則化項で、ClothongFlow F の勾配ノルムに制約を課すことで、空間的な滑らかさの成約を課している。
Stage3 : clothing preserving rendering
Clothing preserving rendering では、Stage2 で生成した歪んだ服とその他ガイダンス情報(目標人物パース画像+目標姿勢情報+参照人物画像)を、上図のような encoder-decoder ネットワークに入力し、最終的な試着画像を生成する。
この encoder-decoder ネットワークの学習は、以下のような損失関数を最小化することで行われる。
- perceptial loss :
VITON や CP-VTON の TOM と同じく、生成した試着画像 I ̂_t とその教師信号 I_t との間のピクセル単位の L1 損失関数の和で定義される perceptial loss を採用する。
※ perceptual loss なしだと、RGBのカラー画像でぼやけた画像を生成してしまうので、perceptual loss も追加している。
- style loss
style transfer のタスクで広く採用されている損失関数。
この style loss により、歪んだ服におけるテクスチャーの詳細を直接的に学習するため、adversarial loss を採用しなくとも十分な試着画像の品質向上が実現出来る。
※ この style loss は、試着画像とその正解画像の各々の特徴マップでの類似度をグラム行列でとっている。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
アーキテクチャの全体像
Stage1 : Conditional layout generation
Stage2 : Cascaded Clothing Flow Estimation
Stage3 : clothing preserving rendering
4. どうやって有効だと検証した?
既存の2次元画像ベースの仮想試着モデルと比較して、服の変形と試着画像の品質が優れていることを定性的に検証している。
各種提案手法の効果を abalation study で定性的に比較している。
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献