既存の SMPL を利用した image-to-3D モデルの多くでは、入力人物画像を encode し、SMPL 制御パラメーターを FC 層で直接回帰することで、人体メッシュを生成していた。
しかしながらこのような方法では、入力画像の空間的な関係の情報が FC 層で失われてしまうために、学習が困難になったり、推論時の汎化性能を低下させてしまうという問題が存在する。
本手法では、FC 層で SMPL制御パラメーターを直接回帰するのではなく、メッシュのジョイント点と各頂点に対してのリクセル(線+画素)毎の尤度(確率値)を1次元ヒートマップに出力することで、入力画像の空間的な関係の情報を失うことなく人体メッシュを生成し、3D再構成の品質を向上させている。
3. 技術や手法の"キモ"はどこにある?
アーキテクチャの全体像
上図は、本手法でのアーキテクチャ(I2L-MeshNet)の全体像を示した図である。
本手法のアーキテクチャは、以下のサブモジュールで構成される。
a. PoseNet
メッシュの各ジョイント点に対して、リクセル(線+画素)毎の尤度を1次元ヒートマップで出力する。
b. MeshNet
メッシュの各頂点に対して、リクセル(線+画素)毎の尤度を1次元ヒートマップで出力する。
c. 最終的なメッシュ生成
MeshNet で生成したメッシュの各頂点に対してのリクセル毎の1次元ヒートマップを元に、最終的なメッシュを生成する。
MeshNet で生成したメッシュの各頂点に対してのリクセル毎の1次元ヒートマップを元に、最終的なメッシュを生成する。
これらの処理は、以下の式で行われる。
※ 論文中には記載がないが、公式実装を見る限り Mesh Net で1次元ヒートマップを出力した後に、そのヒートマップを入力として SMPL パラメーター回帰ネットワーク(FC層)で SMPL 制御パラメーターを出力し、その後 SMPL で最終的な人体メッシュを生成している模様
※ RootNet : 論文「Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image」
論文中の文面 : "We use normalized camera intrinsic parameters if not available following RootNet."
→ この文面が何を言っているのか分からなかった。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
アーキテクチャの全体像
PoseNet
MeshNet
メッシュの生成
損失関数 本手法のネットワーク(PoseNet + MeshNet)は、以下の式で定義される損失関数で end2end に学習される
学習用データセット
Human3.6M 人物3D姿勢データセットで、3Dジョイント座標のアノテーションが付与された 3.6M のビデオフレーム画像を含んでいる。 本手法では、SMPLify-X を利用して、ビデオフレーム画像から正解データしての SMPL 制御パラメーターを生成している。
MSCOCO 広範囲の in-the-wild 画像データセットで、2D人物ジョイント点のアノテーションが付与されている。 本手法では、SMPLify-X を利用して、この画像に対しての3D人体メッシュを正解データとして利用している。 本データは、学習時のみ利用される。
4. どうやって有効だと検証した?
既存の image-to-3D モデルとの定性比較検証
既存の image-to-3D モデルとの定量比較検証
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献