fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

音声駆動型感情表現3D トーキングヘッド生成 #546

Open fulfulggg opened 3 hours ago

fulfulggg commented 3 hours ago

タイトル: 音声駆動型感情表現3D トーキングヘッド生成

リンク: https://arxiv.org/abs/2410.17262

概要:

音声駆動型ビデオポートレート合成は、バーチャルヒューマンインタラクションや映画制作アプリケーションにおいて重要かつ有用な技術です。最近の進歩により、画像の忠実度とリップシンクの向上が進んでいます。しかし、リアルなトークヘッド生成において重要な側面である正確な感情表現の生成は、これまでの研究では十分に探求されていませんでした。本稿では、正確な感情表現を伴う高忠実度の音声駆動型ビデオポートレートを合成するための新しいシステムを紹介します。具体的には、変分オートエンコーダー(VAE)ベースの音声-モーションモジュールを用いて顔のランドマークを生成します。これらのランドマークは、感情埋め込みと連結され、モーション-感情モジュールを通じて感情ランドマークを生成します。そして、これらの感情ランドマークを用いて、ニューラル放射場(NeRF)ベースの感情-ビデオモジュールにより、リアルな感情表現を持つトークヘッドビデオをレンダリングします。さらに、無音の音声入力に対して自然なアイドル状態(非発話)のビデオを生成するポーズサンプリング手法を提案します。広範な実験により、我々の手法はより高い忠実度で、より正確な感情生成を実現することを示します。

fulfulggg commented 3 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

fulfulggg commented 3 hours ago

論文要約

論文要約: 音声駆動型感情表現3D トーキングヘッド生成

この論文では、音声からリアルな表情を持つ3Dの顔アニメーションを生成する新しいシステムを提案しています。

従来の技術の問題点:

提案手法:

  1. 音声から顔の動きを生成: 音声を入力として、変分オートエンコーダー(VAE)を用いて顔のランドマーク(目や口の位置など)を生成する。
  2. 感情を表現する顔の動きを生成: 生成した顔のランドマークに感情表現の情報を加え、感情を反映したランドマークを生成する。
  3. リアルな顔アニメーションを生成: 感情を反映したランドマークとニューラル放射場(NeRF)を用いて、リアルな表情を持つ3Dの顔アニメーションを生成する。
  4. 無音声時の自然な表情を生成: 音声がないときでも、自然な顔の動きを生成する手法を提案。

結果:

応用先:

要点: