CameraHMR：遠近感を考慮した人物姿勢推定

fulfulggg commented 2 weeks ago

タイトル: CameraHMR：遠近感を考慮した人物姿勢推定

リンク: https://arxiv.org/abs/2411.08128

概要:

単眼画像からの高精度な3D人体姿勢・形状推定の課題に取り組みます。精度と頑健性の鍵は、高品質な訓練データにあります。既存の、疑似グランドトゥルース（pGT）付きの実画像を含む訓練データセットは、簡略化されたカメラとデフォルトの内部パラメータを想定し、SMPLifyを用いてスパースな2D関節位置にSMPLをフィッティングしています。本研究では、pGT精度を向上させる2つの貢献を行います。まず、カメラの内部パラメータを推定するために、人物を含む画像データセットで学習させた視野予測モデル（HumanFoV）を開発します。推定された内部パラメータを用いて、SMPLifyフィッティング中に完全な透視カメラモデルを組み込むことで、4D-Humansデータセットを強化します。次に、2D関節は3D体型に対する制約が限られているため、平均的な体型になってしまいます。これを解決するために、BEDLAMデータセットを用いて密な表面キーポイント検出器を学習させます。この検出器を4D-Humansデータセットに適用し、検出されたキーポイントにフィッティングするようにSMPLifyを修正することで、より現実的な体型を実現します。最後に、推定されたカメラパラメータを含めるようにHMR2.0アーキテクチャをアップグレードします。モデルの学習と、以前学習させたモデルで初期化したSMPLifyフィッティングを反復します。これにより、より正確なpGTと、最先端の精度を持つ新しいモデルCameraHMRが得られます。コードとpGTは研究目的で利用可能です。

fulfulggg commented 2 weeks ago

論文要約

この論文は、一枚の画像から人間の3D姿勢と体型をより正確に推定する方法を提案しています。

問題点: 従来の手法は、カメラの設定を単純化しすぎていたり、2Dの関節位置情報しか利用していないため、推定精度が不十分でした。特に、体型が平均的なものになりがちでした。
提案手法(CameraHMR): より現実的なカメラ設定と、より詳細な体表情報を用いて、3D人体モデルを学習します。
- カメラ設定の改善: 画像からカメラの視野角を推定するモデル(HumanFoV)を開発し、より正確なカメラ情報を3Dモデルに取り込みました。
- 体表情報の活用: 体の表面のキーポイントを検出するモデルを学習し、この情報を利用することで、よりリアルな体型の推定を可能にしました。
- 学習の工夫: 3Dモデルの学習と、学習済みモデルを用いた体型の推定を繰り返し行うことで、精度を向上させました。
結果: 提案手法により、従来手法よりも高精度な3D人体姿勢・体型推定を実現しました。作成した高精度な学習データとコードは公開されています。

fulfulggg commented 2 weeks ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

pose-estimation
3D-scene-representation
deep-learning

fulfulggg / Information-gathering