Open fulfulggg opened 3 hours ago
音声駆動型ビデオポートレート合成は、バーチャルヒューマンインタラクションや映画制作アプリケーションにおいて重要かつ有用な技術です。最近の進歩により、画像の忠実度とリップシンクの向上が進んでいます。しかし、リアルなトークヘッド生成において重要な側面である正確な感情表現の生成は、これまでの研究では十分に探求されていませんでした。本稿では、正確な感情表現を伴う高忠実度の音声駆動型ビデオポートレートを合成するための新しいシステムを紹介します。具体的には、変分オートエンコーダー(VAE)ベースの音声-モーションモジュールを用いて顔のランドマークを生成します。これらのランドマークは、感情埋め込みと連結され、モーション-感情モジュールを通じて感情ランドマークを生成します。そして、これらの感情ランドマークを用いて、ニューラル放射場(NeRF)ベースの感情-ビデオモジュールにより、リアルな感情表現を持つトークヘッドビデオをレンダリングします。さらに、無音の音声入力に対して自然なアイドル状態(非発話)のビデオを生成するポーズサンプリング手法を提案します。広範な実験により、我々の手法はより高い忠実度で、より正確な感情生成を実現することを示します。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
この論文では、音声からリアルな表情を持つ3Dの顔アニメーションを生成する新しいシステムを提案しています。
従来の技術の問題点:
提案手法:
結果:
応用先:
要点:
タイトル: 音声駆動型感情表現3D トーキングヘッド生成
リンク: https://arxiv.org/abs/2410.17262
概要:
音声駆動型ビデオポートレート合成は、バーチャルヒューマンインタラクションや映画制作アプリケーションにおいて重要かつ有用な技術です。最近の進歩により、画像の忠実度とリップシンクの向上が進んでいます。しかし、リアルなトークヘッド生成において重要な側面である正確な感情表現の生成は、これまでの研究では十分に探求されていませんでした。本稿では、正確な感情表現を伴う高忠実度の音声駆動型ビデオポートレートを合成するための新しいシステムを紹介します。具体的には、変分オートエンコーダー(VAE)ベースの音声-モーションモジュールを用いて顔のランドマークを生成します。これらのランドマークは、感情埋め込みと連結され、モーション-感情モジュールを通じて感情ランドマークを生成します。そして、これらの感情ランドマークを用いて、ニューラル放射場(NeRF)ベースの感情-ビデオモジュールにより、リアルな感情表現を持つトークヘッドビデオをレンダリングします。さらに、無音の音声入力に対して自然なアイドル状態(非発話)のビデオを生成するポーズサンプリング手法を提案します。広範な実験により、我々の手法はより高い忠実度で、より正確な感情生成を実現することを示します。