ClothFlow: A Flow-Based Model for Clothed Person Generation

0. 論文情報・リンク

論文リンク：http://openaccess.thecvf.com/content_ICCV_2019/html/Han_ClothFlow_A_Flow-Based_Model_for_Clothed_Person_Generation_ICCV_2019_paper.html
公開日時：2019/10/xx
被引用数（記事作成時点）：2 件
実装コード：なし
Publication : ICCV2019

1. どんなもの？

２次元画像ベースの仮想試着タスクにおいて、従来のような TPS 変換とアフィン変換から構成される服変形ではなくて、OpticalFlow に着想を得た ClothFlow で高い自由度での服の変形を行うことで、大きな幾何学的変換を伴うような服変形においても、高品質な仮想試着画像を生成することを実現した２次元画像ベースの仮想試着モデル。

2. 先行研究と比べてどこがすごいの？

VITON や CP-VTON のような deformation-based method における服変形は、TPS 変換とアフィン変換から構成されるが、この手法では、大きな幾何学的変化を伴う場合の服変形がうまく行えないという問題がある。本手法では、OpticalFlow に着想を得た ClothFlow で高い自由度での変形を可能にすることで、大きな幾何学的変換を伴うような服変形においても、高品質な仮想試着画像を生成することを実現している。

3. 技術や手法の"キモ"はどこにある？

アーキテクチャの全体像
本手法のアーキテクチャは上図のように、３つのステージから構成され、大まかには以下のような処理の流れとなる。 ① まず、Stage1 の Conditional layout generation では、試着画像を生成する際の構造的制約を与える目標人物パース画像を生成する。 ② 次に、本手法のコア部分である Stage2 の Cascaded Clothing Flow Estimation では、参照画像と目標画像のピクセル間の幾何学的変換マッピングである ClothFlow を推定し、歪んだ服を生成する。 ③ 最後に Stage3 の Clothing preserving rendering では、歪んだ服とその他ガイダンス情報（目標人物パース画像＋目標姿勢情報＋参照人物画像）から、最終的な試着画像を生成する。
Stage1 : Conditional layout generation
人物参照画像と人物パース参照画像、及び目標人物姿勢情報から、目標人物パース画像を生成する。（※この目標人物パース画像により、試着画像を生成する際の構造的制約を与えることが出来る。）ネットワークの内部アーキテクチャは、encoder-decoder ネットワークから構成され、ネットワークの学習は、生成した目標人物パース画像と教師信号としての目標人物パース画像との間のピクセル単位のクロスエントロピー損失関数を最小化することで行われる。
Stage2 : Cascaded Clothing Flow Estimation
Stage2 では、参照人物画像と Stage1 で生成した参照人物パース画像から目標の姿勢への ClothFlow を推定し、その ClothFlow を元に参照画像の各ピクセルの座標変換を行い、目標の歪んだ服とパース画像を生成する。 ※ ClothFlow は、衣装アイテム（帽子、服、ズボン、靴など）に限定されたフローになっていることに注目参照人物画像と Stage1 で生成した参照人物パース画像から目標の体型への ClothFlow を直接推定すること、その大きな幾何学的変化のために困難なので、動画タスクにおける OpticalFlow を推定するモデルに着想を得て、ピラミッド型のアーキテクチャである cascaded warping network のアーキテクチャを採用している。 ※ 動画タスクにおける OpticalFlow を推定するモデル : 論文「Flownet 2.0: Evolution of optical flow estimation with deep networks」、「Optical flow estimation using a spatial pyramid network」 - Dual Feature Pyramid Networks Clothing Flow の推定プロセスでは、まず前段の pyramid networks からの高レベルで大域的な特徴マップに対して、参照画像と目標画像間の大まかな Clothing Flow を推定し、次に pyramid networks からの低レベルで局所的な特徴マップに対して、参照画像と目標画像間の詳細な Clothing Flow を推定する。より詳細には、まず前段の pyramid networks からの目標画像と参照画像それぞれの高レベルで大域的な特徴マップ S_N,T_N の concat E_N ([S_N,T_N ]) から初期の Clothing Flow F_N を推定する。その後、より低レベルで局所的な特徴マップの concat から初期の Clothing Flow F_N を改善した Clothing Flow を生成する。 - 損失関数 Stage2 の cascaded warping network の学習は、以下の式で定義される損失関数を最小化することで行われる。 - perceptial loss about ROI : 歪んだ服とその教師信号 c_t との間のピクセル単位の L1 損失関数の和で定義される perceptial loss を採用する。 ※ perceptual loss なしだと、RGBのカラー画像でぼやけた画像を生成してしまうので、perceptual loss も追加している。但し、perceptial loss のみでは、外見が似ている異なる服で不正確な服の歪みを生成してしまうので、本手法では以下で述べる structure loss と下式で定義される服の region-of-interest (ROI) に関しての perceptial loss を新たに採用している。これにより、人物パース画像におけるラベル i という特定の region-of-interest (ROI) のみでの服変形に限定されることで、他の領域や背景の影響を受けず、より一貫した変形結果が得られる。 - structure loss perceptial loss のみでは、外見が似ている異なる服で不正確な服の歪みを生成してしまうので、本手法では前述の perceptial loss about ROI に加えて、新たに上式で定義される structure loss で歪んだ服の領域にさらなる構造的成約を課す。 - flow regularization loss 本手法での ClothFlow では、従来のアフィン変換＋TPS変換による服変形の手法よりも、高い自由度での変形を可能にすることで、大きな幾何学的変形をともなる服変形でもうまく対応できるようにしているが、高い自由形式故に適切な制限なしでは、不自然なアーティファクトが生じてしまう。そのため、上式で定義される TV ノルムでの正則化項で、ClothongFlow F の勾配ノルムに制約を課すことで、空間的な滑らかさの成約を課している。
Stage3 : clothing preserving rendering
Clothing preserving rendering では、Stage2 で生成した歪んだ服とその他ガイダンス情報（目標人物パース画像＋目標姿勢情報＋参照人物画像）を、上図のような encoder-decoder ネットワークに入力し、最終的な試着画像を生成する。この encoder-decoder ネットワークの学習は、以下のような損失関数を最小化することで行われる。 - perceptial loss : VITON や CP-VTON の TOM と同じく、生成した試着画像 I ̂_t とその教師信号 I_t との間のピクセル単位の L1 損失関数の和で定義される perceptial loss を採用する。 ※ perceptual loss なしだと、RGBのカラー画像でぼやけた画像を生成してしまうので、perceptual loss も追加している。 - style loss style transfer のタスクで広く採用されている損失関数。この style loss により、歪んだ服におけるテクスチャーの詳細を直接的に学習するため、adversarial loss を採用しなくとも十分な試着画像の品質向上が実現出来る。 ※ この style loss は、試着画像とその正解画像の各々の特徴マップでの類似度をグラム行列でとっている。

4. どうやって有効だと検証した？

既存の２次元画像ベースの仮想試着モデルと比較して、服の変形と試着画像の品質が優れていることを定性的に検証している。
特に、長袖やオクリュージョンがある場合の大きな幾何学的変形をともなる試着で優れている点に注目。
各種提案手法の効果を abalation study で定性的に比較している。
特に、ClothFlow の効果や style loss の効果に注目。

5. 議論はあるか？

本手法での perceptial loss about ROI と structure loss のみを、VITON や CP-VTON の GMM の損失関数に加えることで、外見が似ている異なる服での不正確な歪みを改善する効果が得られないか？
本手法での style loss のみを、VITON や CP-VTON の TOM の損失関数に加えることで、試着画像の品質が向上する効果が得られないか？

6. 次に読むべき論文はあるか？

View synthesis by appearance flow
Feature pyramid networks for object detection
Pose Guided Person Image Generation
DensePose: Dense Human Pose Estimation in the Wild

Yagami360 / machine-learning-papers-survey

ClothFlow: A Flow-Based Model for Clothed Person Generation #46

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献