Open Yagami360 opened 4 years ago
アーキテクチャの全体像
Front-view RGB-D Rectification(正面向き RGB-D 画像の再構成)
back-view RGB-D inference(背面向き RGB-D 画像の推定)
損失関数 本手法でのネットワークは、それぞれ以下の損失関数で学習される。
学習用データセット twindom (https://web.twindom.com/) から購入した衣装を着た人物の3Dスキャンデータ 1000 個。 学習用データ:800 個、テスト用データ:200 個。 データの DA を行っている(※詳細は論文参照)
深度ノイズの除去効果
既存の imge-to-3D モデルとの定性的品質比較検証
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
アーキテクチャの全体像
Front-view RGB-D Rectification(正面向き RGB-D 画像の再構成)
2. 次に、これら3D点群を射影変換(=直交射影)で RGB-D 画像にレンダリングする。これにより、上図の C_ortℎ,D_orth のペア画像が得られる
3. D_orth を洗練するために、UNet ネットワーク G_df で直交射影により欠落した領域(=背面など)を inpainting し、また深度マップ上の深度ノイズを除去する。 ※ 深度ノイズについては、実験結果の Fig.6 参照 ここで、従来の CNN ベースの深度ノイズ除去ネットワークでは、深度マップ上の幾何学的詳細を過度に滑らかにしてしまい、その結果として最終的な3D再構成メッシュが過度に滑らかになりすぎてしまう。 そのため本手法では、法線マップを入力する識別器 F_df ネットワークを新たに導入する。 この法線マップは、深度マップから作成され、深度マップ上の各点の隣接関係情報を持っている。 これを識別器に入力することで、GAN の敵対的学習により、識別器は深度マップ上の各点の隣接関係を生成器に強制する。これにより生成器(Unet)G_df は、高品質の幾何学的詳細をもつ洗練された正面向き深度マップ(上図 output1)を出力出来るようになる。 尚、法線マップ上の法線ベクトルの値が急激に変化すると、GANでの学習がうまくいかなくなるので、損失関数に制約項を追加し、また end2end 学習の前に UNet G_df を事前に学習させる工夫を行っている。 4. 最後に、別の Unet ネットワーク G_cf と論文「On-set performance capture of multiple actors with a stereo camera」の方法を用いて、C_orth からシェーディング効果(=レンダリング時のシェーダーでの効果)を除外し、高品質な正面向き人物 RGB 画像を得る。(上図 output2) ※ このネットワークに入力している人物 RGB 画像は、下図のように、3Dメッシュのレンダリング画像なので、わざわざこのようなシェーディング効果除外処理をしていると思われる。
back-view RGB-D inference(背面向き RGB-D 画像の推定)
損失関数 本手法でのネットワークは、それぞれ以下の損失関数で学習される。
4. どうやって有効だと検証した?
学習用データセット twindom (https://web.twindom.com/) から購入した衣装を着た人物の3Dスキャンデータ 1000 個。 学習用データ:800 個、テスト用データ:200 個。 データの DA を行っている(※詳細は論文参照)
深度ノイズの除去効果
既存の imge-to-3D モデルとの定性的品質比較検証
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献