I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human Pose and Mesh Estimation from a Single RGB Image

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/2008.03713
公開日時：2020/08/09
組織 :
被引用数（記事作成時点）：1 件
実装コード（PyTorch）：https://github.com/mks0601/I2L-MeshNet_RELEASE
Publication : ECCV 2020

1. どんなもの？

SMPL を利用した image-to-3D タスクにおいて、FC 層で SMPL制御パラメーターを直接回帰するのではなく、メッシュのジョイント点と各頂点に対してのリクセル（線＋画素）毎の尤度（確率値）を１次元ヒートマップに出力することで、入力画像の空間的な関係の情報を失うことなく人体メッシュを生成し、３D再構成の品質向上を実現した image-to-3D モデル。

2. 先行研究と比べてどこがすごいの？

既存の SMPL を利用した image-to-3D モデルの多くでは、入力人物画像を encode し、SMPL 制御パラメーターを FC 層で直接回帰することで、人体メッシュを生成していた。しかしながらこのような方法では、入力画像の空間的な関係の情報が FC 層で失われてしまうために、学習が困難になったり、推論時の汎化性能を低下させてしまうという問題が存在する。本手法では、FC 層で SMPL制御パラメーターを直接回帰するのではなく、メッシュのジョイント点と各頂点に対してのリクセル（線＋画素）毎の尤度（確率値）を１次元ヒートマップに出力することで、入力画像の空間的な関係の情報を失うことなく人体メッシュを生成し、３D再構成の品質を向上させている。

3. 技術や手法の"キモ"はどこにある？

アーキテクチャの全体像
上図は、本手法でのアーキテクチャ（I2L-MeshNet）の全体像を示した図である。本手法のアーキテクチャは、以下のサブモジュールで構成される。 a. PoseNet メッシュの各ジョイント点に対して、リクセル（線＋画素）毎の尤度を１次元ヒートマップで出力する。 b. MeshNet メッシュの各頂点に対して、リクセル（線＋画素）毎の尤度を１次元ヒートマップで出力する。 c. 最終的なメッシュ生成 MeshNet で生成したメッシュの各頂点に対してのリクセル毎の１次元ヒートマップを元に、最終的なメッシュを生成する。
PoseNet
PoseNet では、メッシュの各ジョイント点に対して、リクセル（線＋画素）毎の尤度（確率値）を１次元ヒートマップで出力する。具体的には、以下のような処理を行う。 1. 入力人物画像 I を ResNet ベースの encoder で encoder し、特徴マップ F_P を出力する 2. upsampling 層を 8 回で特徴マップ F_P を upsampling し、画像サイズを８倍、特徴マップ数を 2048 -> 256 枚にする。 3. upsampling した特徴マップに対して、以下の式で、x 軸と y 軸に関してのリクセル（線＋画素）毎の尤度（確率値）を保管した１次元ヒートマップを計算する。 4. 同様にして、upsampling した特徴マップに対して、以下の式で、z 軸に関してのリクセル（線＋画素）毎の尤度（確率値）を保管した１次元ヒートマップを計算する。 5. 上記で得られたジョイント点に対してのリクセル毎の１次元ヒートマップは、離散的なヒートマップであるので、soft-argmax 演算で連続的なヒートマップに変換する
MeshNet
MeshNet では、メッシュの各頂点に対して、リクセル（線＋画素）毎の尤度を１次元ヒートマップで出力する。 ※ メッシュの各頂点に対して３次元のヒートマップを計算すると、計算コストが膨大になるので、１次元のヒートマップを出力するようにしている。 1. PoseNet の encoder の最初の層からの特徴マップ F ̅_P と PoseNet からの連続的なヒートマップから以下の式で計算される 3D Gaussian heatmap を encoder に入力する。 2. ResNet ベースの encoder で特徴マップを出力する。 3. PoseNet のときと同様にして、x,y,z 軸に関してのリクセル（線＋画素）毎の尤度（確率値）を保管した１次元ヒートマップを計算する。 ※ PoseNet のときは、メッシュの各ジョイント点に対してのヒートマップであったが、MeshNet ではメッシュの各頂点に対してのヒートマップになっていることに注意 4. 上記で得られたメッシュの各頂点に対してのリクセル毎の１次元ヒートマップは、離散的なヒートマップであるので、soft-argmax 演算で連続的なヒートマップに変換する
メッシュの生成
MeshNet で生成したメッシュの各頂点に対してのリクセル毎の１次元ヒートマップを元に、最終的なメッシュを生成する。これらの処理は、以下の式で行われる。 ※ 論文中には記載がないが、公式実装を見る限り Mesh Net で１次元ヒートマップを出力した後に、そのヒートマップを入力として SMPL パラメーター回帰ネットワーク（FC層）で SMPL 制御パラメーターを出力し、その後 SMPL で最終的な人体メッシュを生成している模様 ※ RootNet : 論文「Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image」論文中の文面 : "We use normalized camera intrinsic parameters if not available following RootNet." → この文面が何を言っているのか分からなかった。
損失関数本手法のネットワーク（PoseNet + MeshNet）は、以下の式で定義される損失関数で end2end に学習される
学習用データセット
- Human3.6M 人物３D姿勢データセットで、3Dジョイント座標のアノテーションが付与された 3.6M のビデオフレーム画像を含んでいる。本手法では、SMPLify-X を利用して、ビデオフレーム画像から正解データしての SMPL 制御パラメーターを生成している。
- MSCOCO 広範囲の in-the-wild 画像データセットで、２D人物ジョイント点のアノテーションが付与されている。本手法では、SMPLify-X を利用して、この画像に対しての３D人体メッシュを正解データとして利用している。本データは、学習時のみ利用される。

4. どうやって有効だと検証した？

既存の image-to-3D モデルとの定性比較検証
既存の image-to-3D モデルである GraphCMR と比較して、本手法での３D再構成メッシュの品質が優れている。
既存の image-to-3D モデルとの定量比較検証
既存の image-to-3D モデルと比較して、本手法が最も優れた品質スコアを実現している。

5. 議論はあるか？

損失関数を計算するためには、メッシュの各ジョイント点と各頂点に対しての１次元ヒートマップの正解データが必要。これらのデータはどこから取得するのか？公式実装を参照する必要がありそう

6. 次に読むべき論文はあるか？

RootNet : Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
損失関数（Mesh normal vector loss, Mesh edge length loss）
- Pixel2Mesh: Generating 3D mesh models from single RGB images

Yagami360 / machine-learning-papers-survey

I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human Pose and Mesh Estimation from a Single RGB Image #100

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献