GarmentGAN: Photo-realistic Adversarial Fashion Transfer

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/2003.01894
公開日時：2020/03/04
被引用数（記事作成時点）：0 件
実装コード：
Publication :

1. どんなもの？

CP-VTON をベースに、CP-VTON 以降の論文（MG-VTON, WUTONなど）のいいとこ取り（人物パース画像の生成・ネットワークの end2end 化・人物表現としてマスクされた人物パース画像を使用など）をして、更に、他の NNモデルで使われている手法やモデル（パース画像生成の SOTA モデル、WGAN-GP、SPADE）なども取り入れて総合的な品質改善を行った２次元画像ベースの仮想試着モデル。

2. 先行研究と比べてどこがすごいの？

CP-VTON 以降の論文では、様々な品質改善のための工夫が提案されているが、それらの論文（MG-VTON, WUTONなど）のいいとこ取り（人物パース画像の生成・ネットワークの end2end 化・人物表現としてマスクされた人物パース画像を使用など）をして、更に、他の NNモデルで使われている手法やモデル（パース画像生成の SOTA モデル、WGAN-GP、SPADE）なども取り入れることで、総合的な品質改善を実現している。
又、マスクされた人物パース画像のマスク部分に腕部分も含めることで、長袖 → 半袖間での試着を実現している。（半袖 → 長袖間での試着を実現できているのかは不明）

3. 技術や手法の"キモ"はどこにある？

アーキテクチャの全体像 GarmetGAN のアーキテクチャは、一般的な２次元画像ベースの仮想試着モデルと同様にして、「人物パース画像を生成するネットワーク」、「変形服を生成するネットワーク（GMM に対応）」、「試着を行うネットワーク（TOM に対応）」から構成される。但し、GMM と TOM に対応するネットワークは、１つの連結した end2end ネットワークになっている。 ※ GMM と TOM に対応するネットワークが、end2end になっているのは WUTON [End-to-End Learning of Geometric Deformations of Feature Maps for Virtual Try-On] と同じ発想。

① Shape transfer Network：試着対象部分をアシストするための人物パース画像を生成する。 ② Appearance transfer Network : 変形服を生成するネットワーク（GMM に対応）と試着を行うネットワーク（TOM に対応）から構成される１つの連結した end2end ネットワーク。
Shape transfer Network
試着対象部分を明示するための人物パース画像を生成するネットワーク。ここで、ネットワークに入力するマスクされた人物パース画像のマスク部分（灰色部分）は、腕部分を含む試着対象領域を囲む最小の長方形でマスクしている。（計算に必要となる手などの座標検出は P_s の keypoints 情報から参照） ※ このマスクされた人物パース画像は、WUTON [End-to-End Learning of Geometric Deformations of Feature Maps for Virtual Try-On] の形状によく似ているが、半袖人物における腕部分も灰色部分に含めていることに注目。これにより、長袖 → 半袖間の試着が実現できる。ネットワークの学習は、GAN による敵対的学習によって行われる。 - 生成器ネットワークこの GAN ネットワークにおける生成器のネットワークは、画像 Inpainting タスクにおける SOTA モデルにインスパイアされた encoder-decoder ネットワーク構造を採用している。 - Encoder 側 3 x 3 のカーネルサイズの畳み込み層（５層）で、特徴マップがストライド幅２で５回ダウンサンプリングされる。特徴マップに適用される活性化関数は Leaky ReLU。その後、ボトルネックとして機能するの4 つの ResBlocks 層が続く。 - Decoder 側目的の解像度へのアップサンプリングを行うネットワーク。 Decoder 側のアーキテクチャの詳細は、論文中に記載なし - 識別器ネットワーク PatchGAN のネットワーク構成。ネットワークの生成器側の損失関数は、以下のように定義される。ネットワークの識別器側の損失関数は、以下のように定義される。
Appearance transfer Network
変形服を生成するネットワーク（GMM に対応）と試着を行うネットワーク（TOM に対応）から構成される１つの連結した end2end ネットワーク。ネットワークの学習は、GAN による敵対的学習によって end2end に行われる。 ※ ネットワークに入力するマスクされた人物パース画像の灰色部分は、Shape transfer Network の形状とは異なり、WUTON における形状と同じものになっている点に注目。このネットワークは、以下のような様々な既存の NN 手法やモデルが組み合わされている。 - spectral normalization の採用学習安定化向上のために、論文「Spectral normalization for generative adversarial networks」で提案されている spectral normalization を採用している。 - SPADE の正規化層の採用論文「SPADE [Semantic Image Synthesis with Spatially-Adaptive Normalization]」で提案されている正規化層を採用している。これにより、人物パース画像のラベル情報を失うことなしに、後段のネットワークへ（試着対象部分を明示する）人物パース情報を伝えることをできるようにする。 - 識別器ネットワークとして、multi-scale SN-PatchGan を採用 pix2pix-HDで提案されている multi-scale SN-PatchGan（マルチスケールの PatchGAN）を採用している。ネットワークの生成器側の損失関数は、以下のように、GMM と TOM の end2end な損失関数として定義される。ネットワークの識別器側の損失関数は、以下のように定義される。

4. どうやって有効だと検証した？

既存の仮想試着モデル（CP-VTON）と比較して、試着画像の品質が改善していることを定性的に検証している。（Our w/o PTS は、end2end で学習していない CP-VTON の GMM を用いた場合の試着画像？）
既存の仮想試着モデル（CP-VTON）との IS と FID スコアの比較から、定量的にも改善していることを検証している。

5. 議論はあるか？

手法自体に大きな新規性はないものの、CP-VTON をベースに、CP-VTON 以降の論文（MG-VTON, WUTONなど）のいいとこ取りをして、更に他のNNモデルで使われている手法やモデル（パース画像生成の SOTA モデル、WGAN-GP、SPADE、spectral normalization など）なども取り入れて総合的な品質改善を行った仮想試着モデルになっている。
２次元画像ベースの仮想試着モデルにおける、現時点での標準的アプローチでの１つの着地点になっている印象。
長袖 → 半袖間での試着やノースリーブ → 半袖間での試着は実現しているようだが、半袖 → 長袖の試着は実現できているのか不明

Yagami360 / machine-learning-papers-survey

GarmentGAN: Photo-realistic Adversarial Fashion Transfer #56

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献