上図は、本手法でのアーキテクチャの全体像を示した図である。
このアーキテクチャには、{Albedo and Normal Estimation [AlbeNorm]・Texture Generation [TexGen]・Mesh Refinement [MeshRef]}3つの主要コンポーネントが存在する。
1. AlbeNorm [Albedo and Normal Estimation]
動画中の RGB 人物画像と球面調和関数 [Spherical Harmonics] で表現されたライト情報を入力として、アベルド画像(=ディフューズ画像)と法線マップを出力することで、3D再構成メッシュのテクスチャーとジオメトリ情報を推定する。
※ 球面調和関数で表現された照明 : 論文「An efficient representation for irradiance envi- ronment maps」
2. TexGen [Texture Generation]
上記 AlbeNorm で出力したアベルド画像の動画フレームを選択し、そこから高解像度のテクスチャーマップを生成する。
3. MeshRef [Mesh Refinement]
RGB-D (人物画像+深さマップ)トラッキング?でのパラメディック人体モデルから得られる荒いメッシュと
AlbeNorm で生成した法線マップから、洗練されたメッシュを生成する。
AlbeNorm [Albedo and Normal Estimation]
入力画像から直接テクスチャーマップを生成すると、入力画像におけるシェーディング効果がテクスチャーマップにはみ出てしまう。アベルド画像にはこのようなシェーディング効果が入っていないので、このアベルド画像を用いれば高解像度のテクスチャーマップを生成することが出来る。
MeshRef では、RGB-D カメラからの3Dトラッキングでのパラメディック人体モデル(論文「Dynamic high resolution deformable articulated tracking」)から得られる荒いメッシュと、AlbeNorm からの法線マップを入力として、洗練された人体メッシュを生成する。
この際に、上図のように、VGG ネットワークで enocode した法線マップと荒い人体メッシュの頂点情報を、UV 座標空間に変換し、この UV マップからの情報でメッシュの洗練する処理を行っている?
※ この方法は、人体メッシュの形状推定における UV 空間利用の有用性を示した論文「Tex2shape: Detailed full human body geometry from a single image 」にインスパイアされた方法
→ この UV マップを活用したメッシュの洗練処理の詳細が理解できていない。別途 Tex2shape の論文を読む必要がありそう。
- Supervised Training on Synthetic Images
この MeshRef でのネットワークは、まず教師信号ありの学習用データで事前学習される。
この教師あり学習は、以下の損失関数で行われる。
- Self-supervised Training on Real Video Data
この教師あり学習のみでは、学習用データと推論用データ(リアルデータ)間のドメインギャップにより、品質の高い3D最高性が行えないために、自己教師あり学習 [Self-supervised Training] を行う。
この自己教師あり学習は、以下の損失関数で行われる。
※ 学習用データの教師信号を使っていない点に注目
Deformation Propagation Loss
本手法では、ある動画フレームからは見えないメッシュ頂点を3D再構成するために、前述の Key Frame Selection で適切な複数フレームを選択し、それらから見えないメッシュ頂点を見つけてメッシュ変形を伝搬させる処理を行っている。
しかしながら、元のソースフレームと対象フレームでの人物姿勢は異なるポーズになっているケースが存在するので、この処理だけでは全体的なメッシュ形状をうまく変形できない。
そのため本手法では、上図 (7) のような local tangent space でのメッシュ変形手法も採用している。
上図 (8) は、このメッシュの変形での効果を示した図である。
ソースフレームとターゲットフレームでの人物姿勢が異なる場合でも、うまくメッシュ生成出来ている。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
アーキテクチャの全体像
AlbeNorm [Albedo and Normal Estimation] 入力画像から直接テクスチャーマップを生成すると、入力画像におけるシェーディング効果がテクスチャーマップにはみ出てしまう。アベルド画像にはこのようなシェーディング効果が入っていないので、このアベルド画像を用いれば高解像度のテクスチャーマップを生成することが出来る。
また法線マップは、メッシュの詳細なジオメトリを復元するためのアシスト情報になるだけでなく、 ライトと一緒にレンダリングすることで、シェーディングによるレンダリング画像を生成するためにも使用出来る。 ※ 余計なシェーダー(Lambertian materials, cast shadowsなど)がない場合のシェーディングを前提とした話
そのため本手法では、まず入力人物画像に対するアベルド画像と法線マップを生成することを考える。 具体的には、CNN ベースのアーキテクチャで、{入力人物画像・球面調和関数で表現されたライト情報}からアベルド画像と法線マップの生成を学習&推論する。 ※ この AlbeNorm でのネットワークの具体的な構造は、Unet とよく似た構造
ネットワークの損失関数は、以下の式のように、 正解アベルド画像と生成アベルド画像間での L1 loss と正解法線マップと生成法線マップ間での L1 lossの線形結合定義される。
TexGen [Texture Generation]
MeshRef [Mesh Refinement]
Deformation Propagation Loss
【補足】アベルドマップ / アベルドテクスチャー [albedo map/ albedo texture]
4. どうやって有効だと検証した?
既存の image-to-3D モデルとの生成メッシュ(テクスチャーマップなし)での定性比較検証
レンダリング画像(メッシュ+テクスチャーマップ)での定性的品質検証
ライト再配置によるライティング効果の定性的品質検証
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献