Open Yagami360 opened 5 years ago
WUTON [Warping U-net for a Virtual Try-On system] WUTON [Warping U-net for a Virtual Try-On system] は、下図のような "Convolutional geometric matcher " と "Siamese U-net generator" の2つのネットワークから構成され、互いに End-to-End に学習が行われる。
End-to-End な学習: CP-VTON では、以下のような衣服にとらわれない人物表現 [clothing-agnostic person representation] の3つのペアで試着画像を再構成するのみにネットワークが学習されているために、テスト用データで試着画像を生成する場合のような参照者が着用している服とは異なる服で試着画像を生成する際の品質に問題があった。
本手法では、試着者の上半身のみをマスクした "agnostic person representation" を使用する。そして、下図のように試着者が元々着ている服と、試着させたい別の異なる服での2つのペアをネットワークに入力する。 ※ この agnostic person representation のマスク画像は、事前学習したパース生成器と姿勢推定器のネットワークである LIP_JPPNET で生成する。
その上で、Siamese U-net generator で試着者が着ている服と別の服での2つの試着結果で敵対的学習を行う。この敵対的損失は Convolution geometric matcher にも逆伝播されるので、(=end-to-end での学習)GMM で出力される歪んだ服は、”最終的な合成画像”の生成によって生じる損失の影響を受け、 その結果としてより現実的で高品質な変形が可能となる。 ※ CP-VTON では、TOM の結果が GMM に逆伝搬されることはなかったことに注目。
UNet での skip connection からの特徴マップに対しての TPS 変換::
Siamese U-net generator での変形した服の生成は、Convolution geometric matcher で生成した変形した服を使うのではなくて、上図のように、服画像を入力した U-Net の skip connectionからの特徴マップに対して、(Convolution geometric matcher で学習した TPS変換パラメーター θ での)TPS 変換で生成する。 ※ この部分では、単に Convolution geometric matcher で学習済みの変換パラメータ θ を利用して服変形を行っているだけで、パラメータ θ の学習を行っているわけではないことに注意。
損失関数: geometric transformation の学習は、CP-VTON のように、整形して歪んだ服 Tθ (c) と agnostic person representation から取得した c(a,p) と間のL1損失関数で行う。
また CP-VTON の TOM と同じように、perceptual loss として以下のような L1損失関数を取る。
更に、前述のように、Siamese U-net generator で試着者が着ている服と別の服での2つの試着結果で敵対的学習を行う。 そして、最終的な損失関数は、以下のような各損失関数の線形結合で定義される。
既存の先行研究であるCP-VTON よりも、 整形した服の特性(テクスチャ、ロゴ、刺繍など)をより正確に生成出来ていることを定性的に確認している。
又、LPIPS metric の指標を用いて、CP-VTON と比較して定量的にも優れていることを確認している。
又、各損失関数やや End-to-End 学習の効果を Ablation studies で比較している。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
WUTON [Warping U-net for a Virtual Try-On system] WUTON [Warping U-net for a Virtual Try-On system] は、下図のような "Convolutional geometric matcher " と "Siamese U-net generator" の2つのネットワークから構成され、互いに End-to-End に学習が行われる。
End-to-End な学習: CP-VTON では、以下のような衣服にとらわれない人物表現 [clothing-agnostic person representation] の3つのペアで試着画像を再構成するのみにネットワークが学習されているために、テスト用データで試着画像を生成する場合のような参照者が着用している服とは異なる服で試着画像を生成する際の品質に問題があった。
本手法では、試着者の上半身のみをマスクした "agnostic person representation" を使用する。そして、下図のように試着者が元々着ている服と、試着させたい別の異なる服での2つのペアをネットワークに入力する。 ※ この agnostic person representation のマスク画像は、事前学習したパース生成器と姿勢推定器のネットワークである LIP_JPPNET で生成する。
その上で、Siamese U-net generator で試着者が着ている服と別の服での2つの試着結果で敵対的学習を行う。この敵対的損失は Convolution geometric matcher にも逆伝播されるので、(=end-to-end での学習)GMM で出力される歪んだ服は、”最終的な合成画像”の生成によって生じる損失の影響を受け、 その結果としてより現実的で高品質な変形が可能となる。 ※ CP-VTON では、TOM の結果が GMM に逆伝搬されることはなかったことに注目。
UNet での skip connection からの特徴マップに対しての TPS 変換::
Siamese U-net generator での変形した服の生成は、Convolution geometric matcher で生成した変形した服を使うのではなくて、上図のように、服画像を入力した U-Net の skip connectionからの特徴マップに対して、(Convolution geometric matcher で学習した TPS変換パラメーター θ での)TPS 変換で生成する。 ※ この部分では、単に Convolution geometric matcher で学習済みの変換パラメータ θ を利用して服変形を行っているだけで、パラメータ θ の学習を行っているわけではないことに注意。
損失関数: geometric transformation の学習は、CP-VTON のように、整形して歪んだ服 Tθ (c) と agnostic person representation から取得した c(a,p) と間のL1損失関数で行う。
また CP-VTON の TOM と同じように、perceptual loss として以下のような L1損失関数を取る。
更に、前述のように、Siamese U-net generator で試着者が着ている服と別の服での2つの試着結果で敵対的学習を行う。 そして、最終的な損失関数は、以下のような各損失関数の線形結合で定義される。
4. どうやって有効だと検証した?
既存の先行研究であるCP-VTON よりも、 整形した服の特性(テクスチャ、ロゴ、刺繍など)をより正確に生成出来ていることを定性的に確認している。
又、LPIPS metric の指標を用いて、CP-VTON と比較して定量的にも優れていることを確認している。
又、各損失関数やや End-to-End 学習の効果を Ablation studies で比較している。
5. 議論はあるか?
6. 次に読むべき論文はあるか?