Open fulfulggg opened 2 months ago
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
背景: 人間の動きは複雑で予測困難なため、長期的な3次元人体動作の予測は難しい課題です。
提案: 本論文では、シーンの情報を考慮することで、より現実的な長期動作予測を可能にする、シーン認識型ソーシャルトランスフォーマーモデル(SAST)を提案しています。
SASTの特徴:
実験結果:
結論: シーンコンテキストを活用することで、複雑なシーンにおける長期的な人体動作予測の精度を大幅に向上させることが可能になりました。
タイトル: シーンコンテキストを用いた大規模多人称3D人物動作予測
リンク: https://arxiv.org/abs/2409.12189
概要:
長期的な3次元人体動作の予測は、人間の行動の確率的な性質上、入力シーケンスだけからリアルな動作を生成することが難しいため、困難な課題です。シーン環境や周囲の人間の動きの情報は、生成プロセスを大幅に支援します。本研究では、長期的な(10秒間の)人体動作を予測するシーン認識型ソーシャルトランスフォーマーモデル(SAST)を提案します。従来のモデルとは異なり、私たちのモデルは、シーン内の非常に多様な人数の人やオブジェクト間の相互作用をモデル化することができます。時間的な畳み込みエンコーダーデコーダーアーキテクチャと、動作情報とシーン情報を効率的に組み合わせることができるTransformerベースのボトルネックを組み合わせました。条件付き動作分布は、ノイズ除去拡散モデルを用いてモデル化します。1〜16人と29〜50個のオブジェクトが同時に見える「Humans in Kitchens」データセットを用いて、私たちのアプローチをベンチマークしました。私たちのモデルは、さまざまな指標とユーザー調査において、リアリズムと多様性の点で他のアプローチを凌駕しました。コードはhttps://github.com/felixbmuller/SASTで公開されています。