シーンコンテキストを用いた大規模多人称3D人物動作予測

fulfulggg commented 2 months ago

タイトル: シーンコンテキストを用いた大規模多人称3D人物動作予測

リンク: https://arxiv.org/abs/2409.12189

概要:

長期的な3次元人体動作の予測は、人間の行動の確率的な性質上、入力シーケンスだけからリアルな動作を生成することが難しいため、困難な課題です。シーン環境や周囲の人間の動きの情報は、生成プロセスを大幅に支援します。本研究では、長期的な（10秒間の）人体動作を予測するシーン認識型ソーシャルトランスフォーマーモデル（SAST）を提案します。従来のモデルとは異なり、私たちのモデルは、シーン内の非常に多様な人数の人やオブジェクト間の相互作用をモデル化することができます。時間的な畳み込みエンコーダーデコーダーアーキテクチャと、動作情報とシーン情報を効率的に組み合わせることができるTransformerベースのボトルネックを組み合わせました。条件付き動作分布は、ノイズ除去拡散モデルを用いてモデル化します。1〜16人と29〜50個のオブジェクトが同時に見える「Humans in Kitchens」データセットを用いて、私たちのアプローチをベンチマークしました。私たちのモデルは、さまざまな指標とユーザー調査において、リアリズムと多様性の点で他のアプローチを凌駕しました。コードはhttps://github.com/felixbmuller/SASTで公開されています。

fulfulggg commented 2 months ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

video-generation
3D-scene-representation
diffusion-models

fulfulggg commented 2 months ago

論文要約

論文要約: シーンコンテキストを用いた大規模多人称3D人物動作予測

背景: 人間の動きは複雑で予測困難なため、長期的な3次元人体動作の予測は難しい課題です。

提案: 本論文では、シーンの情報を考慮することで、より現実的な長期動作予測を可能にする、シーン認識型ソーシャルトランスフォーマーモデル（SAST）を提案しています。

SASTの特徴:

大人数・多オブジェクトに対応: 従来手法と異なり、多数の人やオブジェクトが存在する複雑なシーンでも動作予測が可能
時空間情報の統合: 時間的な畳み込みエンコーダーデコーダーとTransformerを用いることで、動作情報とシーン情報を効果的に組み合わせている
ノイズ除去拡散モデル: より自然で多様な動作を生成するために、条件付き動作分布のモデリングにノイズ除去拡散モデルを採用

実験結果:

データセット: 1〜16人と29〜50個のオブジェクトを含む「Humans in Kitchens」データセットを使用
評価指標: リアリズムと多様性に関する複数の指標とユーザー調査を実施
結果: 提案モデルSASTは、従来手法と比較して、より現実的で多様な長期人体動作予測を実現

結論: シーンコンテキストを活用することで、複雑なシーンにおける長期的な人体動作予測の精度を大幅に向上させることが可能になりました。

fulfulggg / Information-gathering