【2024/07】EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions

論文タイトル（原文まま）

EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions

一言でいうと

音声入力と顔のランドマークを組み合わせて、リアルな肖像アニメーションを生成する新しい手法「EchoMimic」を提案。

論文リンク

https://arxiv.org/abs/2407.08136

著者/所属機関

Zhiyuan Chen, Jiajiong Cao, Zhiquan Chen, Yuming Li, Chenguang Ma
Ant Group

投稿日付(yyyy/MM/dd)

2024/07/12

概要

In this paper,

肖像画像アニメーションの分野で、音声入力により促進される新しいアプローチである「EchoMimic」を提案します。EchoMimicは、音声と顔のランドマークの両方を使用して訓練され、個別にまたは組み合わせて肖像ビデオを生成できます。

As a result,

EchoMimicは、さまざまな公開データセットや収集したデータセットと比較して、量的および質的な評価で優れた性能を示しました。

先行研究と比べてどこがすごい？

従来の方法が音声または顔のランドマークのどちらか一方に依存していたのに対し、EchoMimicは両方を組み合わせて使用することで、より自然で安定した結果を提供します。

技術や手法のキモはどこ？

音声と顔のランドマークの両方を使用して同時に訓練する新しいトレーニング戦略を採用し、リファレンス画像、ランドマークエンコーダ、オーディオエンコーダ、およびデノイジングU-Netを統合しています。

どうやって有効だと検証した？

さまざまな公開データセット（HDTF、CelebV-HQ）および収集データセットを使用し、FID、FVD、SSIM、E-FIDの指標で定量評価しました。また、定性的評価も行い、生成されたビデオの視覚的品質と一貫性を確認しました。

議論はある？

特に言及されていませんが、今後の課題として、ビデオ処理フレームワークの更新や、リアルタイム生成能力の向上が挙げられています。

結果

EchoMimicは、量的および質的な評価で他のアルゴリズムよりも優れた性能を示し、特に視覚的品質と時間的一貫性において顕著な改善を達成しました。

次に読むべき論文は？

Li Hu. Animate anyone: Consistent and controllable image-to-video synthesis for character animation.
Cong Wang et al. V-express: Conditional dropout for progressive training of portrait video generation.
Huawei Wei et al. Aniportrait: Audio-driven synthesis of photorealistic portrait animation.

EchoMimicは、音声と顔のランドマークを組み合わせることで、従来の手法を超える自然で安定した肖像アニメーションを生成する有望なアプローチです。

手法の詳細（数式や理論展開など）

主要な数式

ノイズ除去プロセスの目的関数: [ L = E_{t,c,zt,ϵ}[||ϵ− ϵ_θ(zt, t, c)||^2] ]
時間対応の空間損失: [ Obj = L{latent} + λL{spatial} ] [ L_{spatial} = w(t)[L2(Ip, I{GT}) + LPIPS(Ip, I{GT})] ] [ w(t) = \cos(t * \frac{π}{2T}) ]

モデルアーキテクチャ

デノイジングU-Net: マルチフレームの潜在表現をノイズから強化し、リファレンス画像と音声コンテンツ、時間的関係をエンコード。
リファレンスU-Net: 顔のアイデンティティと背景の一貫性を維持。
オーディオエンコーダ: 音声のニュアンスと音調をエンコードし、生成手順に統合。
ランドマークエンコーダ: 顔ランドマークの正確な空間情報を統合。

トレーニング詳細

2段階のトレーニング戦略を採用。
ランダムランドマーク選択やオーディオ増強などの技術を使用。

personabb / survey_paper