Disentangled Person Image Generation

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1712.02621
公開日時：2017/12/07
被引用数（記事作成時点）：99 件
実装コード：https://github.com/charliememory/Disentangled-Person-Image-Generation
Publication : CVPR2018

1. どんなもの？

GAN における人物画像の生成タスクにおいて、３つの要素（Foreground, Background, Pose）それぞれで分岐した画像の再構成ネットワークで、本物人物画像の埋め込みを行うステージと、ガウスノイズからサンプリングされた入力ノイズを学習されたネットワークで埋め込み、それら本物画像と偽物画像の埋め込みベクトル間で敵対的学習を行うステージという２つのステージから構成されるアーキテクチャを用いて、潜在空間を distanglement し、生成画像における３つの要素（Foreground, Background, Pose）の制御可能性を高めた GAN 手法。

2. 先行研究と比べてどこがすごいの？

従来の GAN 手法では、高品質でリアルな画像を生成することは実現できていたが、生成画像の制御可能性（＝ユーザーが指定した人物の容姿や服の色、姿勢などに沿った画像を生成すること）に課題が存在した。本手法では、３つの要素（Foreground, Background, Pose）それぞれで分岐した画像の再構成ネットワークで、本物人物画像の埋め込みを行うステージと、ガウスノイズからサンプリングされた入力ノイズを学習されたネットワークで埋め込み、それら本物画像と偽物画像の埋め込みベクトル間で敵対的学習を行うステージという２つのステージから構成されるアーキテクチャを用いて、潜在空間を distanglement し、生成画像における３つの要素（Foreground, Background, Pose）の制御可能性を高めている。

3. 技術や手法の"キモ"はどこにある？

アーキテクチャの全体像
上図は、本手法のアーキテクチャの全体像を示した図である。この２段階のステージから構成されるアーキテクチャは、３つの要素（Foreground, Background, Pose）それぞれで分岐した画像の再構成ネットワークで、本物人物画像の埋め込みを行うステージと、ガウスノイズからサンプリングされた入力ノイズを学習されたネットワークで埋め込み、それら本物画像と偽物画像の埋め込みベクトル間で敵対的学習を行うというステージで、潜在空間を distanglement することを目的として設計されている。まず、StageI のネットワークでは、潜在空間の３つの要素（Foreground, Background, Pose）への distanglement を行うために、本物人物画像やポーズ情報、人物マスク画像のそれぞれ x を埋め込み空間へ埋め込む。この際に、Enocoder-Decoder ネットワークで画像の再構成を行う。次に StageII のネットワークでは、ガウス分布からサンプリングされたノイズから偽物画像の埋め込みベクトルへの写像を学習し、StageI で埋め込まれた本物画像の埋め込みベクトルと、偽物画像の埋め込みベクトル間で敵対的学習を行う。
Stage I : Disentangled image reconstruction
上図は、StageI でのアーキテクチャの詳細を示した図である。 Stage I では、入力人物画像を Encoder で３つの要素（Foreground, Background, Pose）への埋め込みを行い、埋め込んだベクトルから Decoder で画像の再構成を行う。この際に、３つの要素（Foreground, Background, Pose）を distanglement するために、３つの要素それぞれに対応した Encoder が用意されている。 - Foreground の Enocoder Foreground の Enocoder では、画像中の Foreground と Background を除外するために、（Foreground と Background が映っていない）入力人物画像のマスク画像を入力する。更に、ポーズ情報から、ポーズ不変性をもつ７つの関心点 [ROI : Regions-Of-Interest ] で 48x48 の少領域に分割したものをエンコードする。 - Background の Encoder Foreground を除外して Background のみを取り込むために、人物マスク画像を反転したものをエンコードする。 - Pose の Encoder 18チャンネルのヒートマップからなるポーズ情報を UNet ベースのアーキテクチャに入力する。入力画像において、オクルージョンで身体の一部が映っていない可能性があるために、各関節点情報の可視状態を表す変数 α_i を導入している。従って、ポーズ情報は合計 52 次元（関節点の x,y 座標の 36 次元＋関節点の可視状態 18 次元）のベクトルで表現されている。
Stage II Embedding feature mapping :
一般的に、データの分布は、その次元内で均一に分布しているのではなく、より低次元の多様体の一部領域に集中していると考えられている（＝多様体仮説）ので、埋め込み写像で低次元多様体上に埋め込む場合は、データの分布が連続で学習しやすい分布にする必要がある？そのため連続分布であるガウス分布を Mapping Network でより低次元埋め込み空間における連続的な分布を得るようにする。ここで、この Mapping Network は、敵対的学習で学習を行うネットワークであり、３つの要素（Foreground, Background, Pose）に対して別々の Mapping Network で埋め込むを行う。 ※ この Mapping function は、StyleGAN における Mapping network と似たような発想？
推論フェイズでの動作（ガウスのノイズからのサンプリング）
本手法の推論フェイズでは、ガウス分布からサンプリングされた入力ノイズ z に対して、StageII で学習した Mapping Network で３つの要素（Foreground, Background, Pose）各々の埋め込みを行い、StageI で学習したそれぞれの Decoder で元の画像の復元を行う。
損失関数本手法では、StageI と StageII の２段階のプロセスに分かれているので、損失関数もそれぞれのステージで別々に定義される。（＝ステージ間は end-to-end ではない）。

まず、Stage I での損失関数は、以下の式のように、オリジナルの adverarial loss とピクセル単位の L1 損失関数で定義される。 ※ ピクセル単位の L1 損失関数で、再構成画像の局所的な詳細を入力画像に近づけるようにする。
StageI での姿勢情報の再構成に関しては、以下の式のように、L2 損失関数で定義される。次に、StageII では、以下の式のように、WGAN での adversarial loss で定義される。 ※ StageII でもオリジナルの adversarial loss で学習を行うと、モード崩壊を起こしたため、モード崩壊を起こしにくく、又学習も安定している WGAN の adversarial loss で定義している。

4. どうやって有効だと検証した？

潜在空間内での入力ノイズを線形補間したときの生成画像で、うまく３つの要素（Foreground, Background, Pose）を distanglement できていることを定性的に検証している

5. 議論はあるか？

人物画像における３つの要素（Foreground, Background, Pose）の distanglement は出来ているが、それぞれの要素に対応した専用のネットワークを必要としており、ドメイン依存性が高く汎用的なアーキテクチャにはなっていない。言い換えると、このアプローチでは、別の要素を distanglement しようとすると、新たにそれ専用のネットワーク構造を織り込む必要がありそう。
StyleGAN のときもそうだったが、潜在空間を distanglement するには、一度学習された埋め込み写像で、データを低次元空間内に埋め込むことがポイントか。

Yagami360 / machine-learning-papers-survey

Disentangled Person Image Generation #41

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献