Open Yagami360 opened 5 years ago
以下のような4段階のプロセス 「Conditional Parsing Learning」、「GMM [Geometric Matching Module]」、「Warp-GAN」、「Refinement Render」 で様々な姿勢に対しての仮想試着を可能にしている。
Conditional Parsing Learning : Conditional Parsing Learningでは、まず参照人物画像を3つのバイナリマスク(Hair Mask, Face Mask, Body Shape)に分解し、それら3つのバイナリマスクを生成器への入力として、人物パース画像を予想する。 この際に、以下のような cGAN ベースのネットワークで学習を行いながら、試着者の人物パース画像を本物に近づけていく。 ここで、生成器のネットワークは、ResNet ベースのネットワーク構成で、識別器のネットワーク構成は pix2pix-HD ベースのネットワーク構成となる。 ネットワークの損失関数は、以下の式のように、一般的な GAN の adversial loss と生成器が生成した人物パース画像と教師データとの間のピクセル単位でのL1損失関数で定義される。
GMM [Geometric Matching Module] : 試着服を対象の試着者の形状にフィットするように、以下のようなネットワークで end-to-end で学習し、整形されて歪んだ服を出力するモジュール。 ※ この GMM は、CP-VTON で提案されているネットワーク。
この GMM の損失関数は、以下の式のように、整形して歪んだ服とその教師信号と間の ”ピクセル単位での” L1損失で定義される。
Warp-GAN : Conditional Parsing Learning が生成した人物パース画像とその姿勢情報、参照人物画像の服部分を除いた人物画像、及び、GMM が生成した整形されて歪んだ服と生成器への入力として、大まかで荒い試着合成画像を生成する。 この際に、以下のような cGAN ベースのネットワークで学習を行いながら、試着合成画像の大まかな形状を本物に近づけていく。 この Warp-GAN の損失関数は、以下の式のように、"adversarial loss", "perceptual loss", "feature loss", "L1 loss" との線形結合で定義される。
Refinement Render : 試着服を対象者の形状に合うように歪ませた結果、服のテスクチャの詳細がぼやけてしまうが、この服のテスクチャの詳細の品質を回復させるためのネットワーク。 ※ CP-VTON での TOM [Try-On Module] のようなネットワークになっている。
この refinement render では、まず ResNet で、構成マスクを出力(推定)する。そして、この構成マスクを用いて、以下の式ような歪んだ服と合成画像への直接的な貼り付けにより、合成画像を生成する。 また、refinement render の損失関数は、以下のように定義される。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
以下のような4段階のプロセス 「Conditional Parsing Learning」、「GMM [Geometric Matching Module]」、「Warp-GAN」、「Refinement Render」 で様々な姿勢に対しての仮想試着を可能にしている。
Conditional Parsing Learning : Conditional Parsing Learningでは、まず参照人物画像を3つのバイナリマスク(Hair Mask, Face Mask, Body Shape)に分解し、それら3つのバイナリマスクを生成器への入力として、人物パース画像を予想する。 この際に、以下のような cGAN ベースのネットワークで学習を行いながら、試着者の人物パース画像を本物に近づけていく。 ここで、生成器のネットワークは、ResNet ベースのネットワーク構成で、識別器のネットワーク構成は pix2pix-HD ベースのネットワーク構成となる。 ネットワークの損失関数は、以下の式のように、一般的な GAN の adversial loss と生成器が生成した人物パース画像と教師データとの間のピクセル単位でのL1損失関数で定義される。
GMM [Geometric Matching Module] : 試着服を対象の試着者の形状にフィットするように、以下のようなネットワークで end-to-end で学習し、整形されて歪んだ服を出力するモジュール。 ※ この GMM は、CP-VTON で提案されているネットワーク。
この GMM の損失関数は、以下の式のように、整形して歪んだ服とその教師信号と間の ”ピクセル単位での” L1損失で定義される。
Warp-GAN : Conditional Parsing Learning が生成した人物パース画像とその姿勢情報、参照人物画像の服部分を除いた人物画像、及び、GMM が生成した整形されて歪んだ服と生成器への入力として、大まかで荒い試着合成画像を生成する。 この際に、以下のような cGAN ベースのネットワークで学習を行いながら、試着合成画像の大まかな形状を本物に近づけていく。 この Warp-GAN の損失関数は、以下の式のように、"adversarial loss", "perceptual loss", "feature loss", "L1 loss" との線形結合で定義される。
Refinement Render : 試着服を対象者の形状に合うように歪ませた結果、服のテスクチャの詳細がぼやけてしまうが、この服のテスクチャの詳細の品質を回復させるためのネットワーク。 ※ CP-VTON での TOM [Try-On Module] のようなネットワークになっている。
この refinement render では、まず ResNet で、構成マスクを出力(推定)する。そして、この構成マスクを用いて、以下の式ような歪んだ服と合成画像への直接的な貼り付けにより、合成画像を生成する。 また、refinement render の損失関数は、以下のように定義される。
4. どうやって有効だと検証した?
5. 議論はあるか?
6. 次に読むべき論文はあるか?