Open yukihiko-fuyuki opened 3 months ago
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
従来の課題: 音声からリアルな顔アニメーションを生成する既存の技術は、学習データのフォーマット(アノテーション)の違いが原因で、学習規模が限られていました。
UniTalker の提案: 本論文では、異なるアノテーションを持つデータセットを統合して学習できる、UniTalker という新しいモデルを提案します。
UniTalker の特徴:
大規模データセット A2F-Bench:
UniTalker の成果:
結論: UniTalker は、大規模で多様なデータセットを活用することで、音声駆動型 3D 顔アニメーション技術を大幅に進歩させました。
詳細: コードとデータセットは、https://github.com/X-niper/UniTalker で公開されています。
タイトル: UniTalker: 統一モデルによる音声駆動型3D顔アニメーションの大規模化
リンク: https://arxiv.org/abs/2408.00762
概要:
音声駆動型3D顔アニメーションは、入力音声を実物そっくりの顔の動きにマッピングすることを目指しています。著しい進歩にもかかわらず、3Dアノテーションの不整合性により、従来のモデルは特定のアノテーションでの学習に限定され、学習規模が制限されていました。本研究では、さまざまなアノテーションを持つデータセットを効果的に活用するように設計された、マルチヘッドアーキテクチャを特徴とする統合モデル「UniTalker」を提案します。学習の安定性を高め、マルチヘッド出力間の一貫性を確保するために、PCA、モデルウォームアップ、ピボットID埋め込みという3つの学習戦略を採用します。学習規模と多様性を拡大するために、公開されている5つのデータセットと新たにキュレーションされた3つのデータセットで構成されるA2F-Benchを構築しました。これらのデータセットには、多言語の音声や歌を含む幅広いオーディオドメインが含まれており、一般的に使用されているデータセット(通常1時間未満)から18.5時間に学習データを拡張しています。単一の学習済みUniTalkerモデルを使用することで、BIWIデータセットでは9.2%、Vocasetでは13.7%という大幅なリップ頂点エラーの削減を達成しました。さらに、事前学習済みのUniTalkerは、音声駆動型顔アニメーションタスクの基礎モデルとして有望です。事前学習済みのUniTalkerを既知のデータセットでファインチューニングすると、各データセットのパフォーマンスがさらに向上し、A2F-Benchでは平均6.3%のエラー削減が達成されます。さらに、未知のデータセットの半分だけのデータでUniTalkerをファインチューニングすると、データセット全体で学習された従来の最先端モデルを凌駕します。コードとデータセットは、プロジェクトページhttps://github.com/X-niper/UniTalkerで公開されています。