Poly-GAN: Multi-Conditioned GAN for Fashion Synthesis - Githubissues

Yagami360 / machine-learning-papers-survey

機械学習関連の論文Survey用レポジトリ

135 stars 6 forks source link

Poly-GAN: Multi-Conditioned GAN for Fashion Synthesis #17

Open Yagami360 opened 5 years ago

Yagami360 commented 5 years ago

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1909.02165
公開日時：2019/09/05
被引用数（記事作成時点）：xxx 件
実装コード：

1. どんなもの？

歪んだ服の生成を cGAN で行い、仮想試着モデルで一般的に用いられる３つのステージのアーキテクチャを単一のアーキテクチャで統一することで、試着画像におけるオクリュージョンでの色のこぼれやぼやけなどの問題を解決した２次元画像ベースの仮想試着モデル。

2. 先行研究と比べてどこがすごいの？

仮想試着モデルで一般的に用いられる３つのステージ（＝歪んだ服の生成処理＋歪んだ服を人物にフィッティングする処理＋フィッティング後のアーティファクトを軽減する処理）を単一のアーキテクチャで統一している。
· 又、従来の仮想試着モデルのようにアフィン変換で歪んだ服の生成を行うのではなくて、人物姿勢を入力条件とする cGAN で歪んだ服を生成する。
これにより、従来の３つのステージ（＝アフィン変換による歪んだ服の生成処理＋歪んだ服を人物にフィッティングする処理＋フィッティング後のアーティファクトを軽減する処理）で異なるアーキテクチャを使用していた方法で発生しがちな、オクリュージョンによる色のこぼれやぼやけなどのアーティファクト問題（例えば服の上で腕を組んでいる場合に、腕に服の色が溢れる、或いは、腕付近の服がぼやけるなど）を回避することが出来る。 ※ オクルージョン [occlusion]：手前にある物体が背後にある物体を隠して見えないようにする状態。

3. 技術や手法の"キモ"はどこにある？

アーキテクチャ全体の概要：本手法の全体的なアーキテクチャは、上図のように、以下で述べる仮想試着で一般的に用いられる各ステージから構成され、各々のステージの内部アーキテクチャは、共通のアーキテクチャ（詳細は後述）で実現されている。
- Stage I 参照服画像と参照人物画像の骨格情報の concat を入力として、参照人物画像の姿勢に沿うような歪んだ服を生成するステージ。参照人物画像の骨格情報は、任意の姿勢での服変形を行うための条件として機能する。 ※ 参照人物画像の骨格情報は、Pose-Estimator としての、MPII Human Pose dataset で事前学習された LCR net++モデルによって生成される。 ※ この Pose-Estimator は、部分的なオクルージョンがある場合でも、欠落したポーズを生成する。
- Stage II 顔と衣服のないセグメンテーション画像と参照人物画像の骨格情報、及び、StageI が出力する歪んだ服を入力として、顔と衣服のないセグメンテーション画像に縫い合わせるように貼り付ける。この StageII の段階では、歪んだ服を参照人物画像の形状に沿うように貼り付けることは行わない。これにより、StageI の変換中に生成された歪んだ服の位置ずれの可能性に対してよりロバストになる？ ※ 顔と衣服のないセグメンテーション画像は、参照人物画像のセグメンテーション画像と、服部分のマスク画像から生成する。 ※ この内、服のマスク画像は、DeepFashion でイチから学習（＝スクラッチ学習）した UNet++ モデルから生成。 ※ 参照人物画像のセグメンテーション画像は、頭部分をくり抜く目的と UNet++ の学習目的に使用される。
Stage III StageII の段階まででは、上図のように、貼り付けられた歪んだ服と、顔と衣服のないセグメンテーション画像の間に隙間がある。そのため、Stage III では、欠落している領域を示す差分マスク [difference mask] を用いて、この隙間を埋めるように学習を進める。 ※ この差分マスク [difference mask] は、どうやって生成している？
- Stage IV Stage IV では、Stage II と StageIII の結果を組み合わせ、又、最終的な試着画像を得るために頭部を貼り付ける。
アーキテクチャの詳細

本手法の各ステージのアーキテクチャは、上図のように、Encoder（緑色部分） & Decoder（青色部分）と Skip connection のアーキテクチャと、識別器のアーキテクチャで構成され、各ステージで共通のアーキテクチャとなっている。
- Encoder （緑色部分）： Conv Module と Conv-Norm Module から構成される。Conv Module では、入力条件を（最初の層だけではなく）すべての層に入力することで、入力条件の特徴量がネットワークの深層で弱くなってしまうことを防止している。
- Decoder （青色部分）：一部のアーキテクチャが、CycleGAN に似たものとなっている。
- skip connections : encoder と decoder 間の skip connections の導入は、仮想試着画像の品質向上においても重要な役割を果たす。具体的には、encoder と decoder 間の skip connections を使用すると、生成された仮想試着画像は正解データに近いほど変形できなくなる。又、 skip connections を使用しないと、生成画像の詳細が失われてしまう。
- Discriminator ： GAN によって生成されがちなぼやけた画像にペナルティを科すために、L2損失関数を使用しての識別器による GAN loss での学習を行う。
損失関数：本手法の損失関数は、"adversarial loss" + "GAN loss（L2損失関数）" +"identity loss（L1損失関数）" から構成され、以下の式で定義される。

4. どうやって有効だと検証した？

xxx

5. 議論はあるか？

CP-VTON や MG-VTON などで使用している OpenPose で取得できる骨格情報は、部分的なオクルージョンがある場合に、完全ではなくなり、これ特に横向き姿勢をしている場合の試着画像の品質低下の一因となり得る。この論文で採用している Pose-Estimator（MPII Human Pose dataset で事前学習された LCR net++モデル）は、部分的なオクルージョンがある場合でも、欠落したポーズを生成出来るので、これを部分的代用することで他のアーキテクチャでも品質向上を見込まないか？

6. 次に読むべき論文はあるか？

xxx