NormalGAN: Learning Detailed 3D Human from a Single RGB-D Image

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/2007.15340
公開日時：2020/07/30
組織 :
被引用数（記事作成時点）：0 件
実装コード（推論コードのみ）：https://github.com/LizhenWangT/NormalGAN
プロジェクトページ : http://www.liuyebin.com/NormalGan/normalgan.html
Publication : ECCV 2020

1. どんなもの？

RGB-D 画像（人物画像＋深度マップ）を入力として、深度マップからの法線マップを識別器に入力することで生成器に制約を課す GAN ベースのアーキテクチャである NormalGAN により、3D再構成したメッシュの奥行き感や背面品質を向上させた image-to-3D モデル

2. 先行研究と比べてどこがすごいの？

深度カメラを活用した image-to-3D モデルでは、深度カメラから得られる深度マップにより、３D再構築の品質を向上させている。しかしながらこの方法では、深度カメラを使用した面倒なキャプチャー処理が別途必要になってしまう。一方で最近の DNN ベースの手法では、単一の人物画像から人物メッシュの３D再構成を実現している。しかしながらこの方法では、人物画像における奥行き情報の欠落のために、生成された人物メッシュの奥行き感や背面品質は低くなってしまう問題が存在する。本手法では、RGB-D 画像（人物画像＋深度マップ）を入力として、深度マップからの法線マップを識別器に入力することで生成器に制約を課す GAN ベースのアーキテクチャである NormalGAN により、再構成メッシュの背面（＝厳密には深度マップ）が過度に平坦化され過ぎるような問題を軽減し、再構成したメッシュの奥行き感や背面品質を向上させている。

3. 技術や手法の"キモ"はどこにある？

アーキテクチャの全体像
上図は、本手法でのアーキテクチャ全体像を示した図である。本手法でのアーキテクチャは、以下のコンポーネントから構成され、Moulding humans のように人体の両面表現を採用したアーキテクチャになっている。 ※ 但し、GAN のアーキテクチャと法線マップを活用している点は異なる。 ※ Moulding humans : 論文「Moulding humans: Non-parametric 3d human shape estimation from single images」 1. front-view rectification（正面向き RGB-D 画像の再構成） RGB-D 画像（人物画像＋深度マップ）を入力として、より洗練された正面向き RGB-D 画像を出力する。この際に、深度マップから得られる法線マップを識別器に入力して、GANのアーキテクチャで学習することで、深度マップ上の幾何学的詳細が過度に滑らかになりすぎる問題を軽減し、生成される RGB-D 画像の品質を向上させている。 2. back-view RGB-D inference（背面向き RGB-D 画像の推定） Front-view RGB-D Rectification モジュールで得られた洗練された正面向き RGB-D 画像から、背面向き RGB-D 画像を推定する。アーキテクチャの構造自体は、Front-view RGB-D Rectification モジュールと同じようなアーキテクチャになっているが、特に背面の推定タスクでは、法線マップを識別器に入力することは、背面品質を大きく向上させる効果があることに注目。 3. ３Dメッシュの再構成洗練された正面向き RGB-D 画像と背面向きRGB-D 画像（上図 output1~4）から、３Dメッシュを再構成する。
Front-view RGB-D Rectification（正面向き RGB-D 画像の再構成）
Front-view RGB-D Rectification モジュールでは、RGB-D 画像（人物画像＋深度マップ）を入力として、より洗練された正面向き RGB-D 画像を出力する。具体的には、以下のような処理を行う 1. 透視変換の不規則なサンプリング特性に起因するアーティファクト？を回避するために、まず RGB-D 画像（＝人物画像＋深度マップ）を３D点群（頂点カラー付き）に変換する。
2. 次に、これら３D点群を射影変換（＝直交射影）で RGB-D 画像にレンダリングする。これにより、上図の C_ortℎ,D_orth のペア画像が得られる
3. D_orth を洗練するために、UNet ネットワーク G_df で直交射影により欠落した領域（＝背面など）を inpainting し、また深度マップ上の深度ノイズを除去する。 ※ 深度ノイズについては、実験結果の Fig.6 参照ここで、従来の CNN ベースの深度ノイズ除去ネットワークでは、深度マップ上の幾何学的詳細を過度に滑らかにしてしまい、その結果として最終的な３D再構成メッシュが過度に滑らかになりすぎてしまう。そのため本手法では、法線マップを入力する識別器 F_df ネットワークを新たに導入する。この法線マップは、深度マップから作成され、深度マップ上の各点の隣接関係情報を持っている。これを識別器に入力することで、GAN の敵対的学習により、識別器は深度マップ上の各点の隣接関係を生成器に強制する。これにより生成器（Unet）G_df は、高品質の幾何学的詳細をもつ洗練された正面向き深度マップ（上図 output1）を出力出来るようになる。尚、法線マップ上の法線ベクトルの値が急激に変化すると、GANでの学習がうまくいかなくなるので、損失関数に制約項を追加し、また end2end 学習の前に UNet G_df を事前に学習させる工夫を行っている。 4. 最後に、別の Unet ネットワーク G_cf と論文「On-set performance capture of multiple actors with a stereo camera」の方法を用いて、C_orth からシェーディング効果（＝レンダリング時のシェーダーでの効果）を除外し、高品質な正面向き人物 RGB 画像を得る。（上図 output2） ※ このネットワークに入力している人物 RGB 画像は、下図のように、３Dメッシュのレンダリング画像なので、わざわざこのようなシェーディング効果除外処理をしていると思われる。
back-view RGB-D inference（背面向き RGB-D 画像の推定）
back-view RGB-D inference モジュールでは、上記 Front-view RGB-D Rectification モジュールで得られた洗練された正面向き RGB-D 画像から、背面向き RGB-D 画像を推定する。アーキテクチャの構造自体は、Front-view RGB-D Rectification モジュールと同じようなアーキテクチャになっているが、特に背面の推定タスクでは、法線マップを識別器に入力することは、背面品質を大きく向上させる効果がある。
損失関数本手法でのネットワークは、それぞれ以下の損失関数で学習される。

4. どうやって有効だと検証した？

学習用データセット twindom (https://web.twindom.com/) から購入した衣装を着た人物の３Dスキャンデータ 1000 個。学習用データ：800 個、テスト用データ：200 個。データの DA を行っている（※詳細は論文参照）
深度ノイズの除去効果
本手法での法線メップで条件付けした GAN（Normal-GAN）が、最も深度ノイズをうまく除去出来ている ※ 同じ GAN でも深度マップで条件付け（Depth-GAN）するより、法線マップで条件付けしたほうが深度ノイズをうまく除去できている点に注目
既存の imge-to-3D モデルとの定性的品質比較検証
既存の image-to-3D モデル（DeepHuman, Pifu）と比較して、本手法ではメッシュの局所的な詳細も３D再構成出来ており、最も品質が高くなっている。

5. 議論はあるか？

論文中に「学習用コードとデータセットを公開予定（但し完全なデータセットは公開しない）」の記載あり。
生成メッシュの品質は高いが、人物 RGB 画像の他に深度マップ（D）が必要となる。人物画像から深度マップは得るには別途 image-to-image モデルが必要？
法線マップを直接生成器に入力するのではなく、識別器に入力して生成器に制約を課しているのが特徴的
この手法に限らず法線マップの活用は、特に背面側の３D再構成の品質向上に有効であるという印象

6. 次に読むべき論文はあるか？

アーキテクチャのベースライン
- Moulding humans: Non-parametric 3d human shape estimation from single images

Yagami360 / machine-learning-papers-survey

NormalGAN: Learning Detailed 3D Human from a Single RGB-D Image #95

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献