音声駆動型感情表現3D トーキングヘッド生成

fulfulggg commented 3 hours ago

タイトル: 音声駆動型感情表現3D トーキングヘッド生成

リンク: https://arxiv.org/abs/2410.17262

概要:

音声駆動型ビデオポートレート合成は、バーチャルヒューマンインタラクションや映画制作アプリケーションにおいて重要かつ有用な技術です。最近の進歩により、画像の忠実度とリップシンクの向上が進んでいます。しかし、リアルなトークヘッド生成において重要な側面である正確な感情表現の生成は、これまでの研究では十分に探求されていませんでした。本稿では、正確な感情表現を伴う高忠実度の音声駆動型ビデオポートレートを合成するための新しいシステムを紹介します。具体的には、変分オートエンコーダー（VAE）ベースの音声-モーションモジュールを用いて顔のランドマークを生成します。これらのランドマークは、感情埋め込みと連結され、モーション-感情モジュールを通じて感情ランドマークを生成します。そして、これらの感情ランドマークを用いて、ニューラル放射場（NeRF）ベースの感情-ビデオモジュールにより、リアルな感情表現を持つトークヘッドビデオをレンダリングします。さらに、無音の音声入力に対して自然なアイドル状態（非発話）のビデオを生成するポーズサンプリング手法を提案します。広範な実験により、我々の手法はより高い忠実度で、より正確な感情生成を実現することを示します。

fulfulggg commented 3 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

video-generation
emotion-recognition
3D-scene-representation

fulfulggg commented 3 hours ago

論文要約

論文要約: 音声駆動型感情表現3D トーキングヘッド生成

この論文では、音声からリアルな表情を持つ3Dの顔アニメーションを生成する新しいシステムを提案しています。

従来の技術の問題点:

音声から顔アニメーションを生成する技術は進化しているが、リアルな感情表現の生成が課題だった。

提案手法:

音声から顔の動きを生成: 音声を入力として、変分オートエンコーダー(VAE)を用いて顔のランドマーク（目や口の位置など）を生成する。
感情を表現する顔の動きを生成: 生成した顔のランドマークに感情表現の情報を加え、感情を反映したランドマークを生成する。
リアルな顔アニメーションを生成: 感情を反映したランドマークとニューラル放射場(NeRF)を用いて、リアルな表情を持つ3Dの顔アニメーションを生成する。
無音声時の自然な表情を生成: 音声がないときでも、自然な顔の動きを生成する手法を提案。

結果:

よりリアルな表情の生成が可能になった。
音声がないときでも自然な顔の動きを生成できるようになった。

応用先:

バーチャルヒューマンとの自然なインタラクション
よりリアルな映画制作
表情豊かなアニメーション制作

要点:

音声情報だけでなく、感情情報も加えることで、よりリアルな顔アニメーションを生成できる。
無音声時にも自然な表情を生成することで、よりリアルなバーチャルヒューマンを実現できる。

fulfulggg / Information-gathering