【2019】Talking Face Generation by Adversarially Disentangled Audio-Visual Representation

ざっくり言うと

今までのTalking face generation AIは顔画像 or Audioの片方の情報から作成させていた。本論文では顔画像と Audioの二つの情報を利用することでより自然なtalking face generationできるようになった。

キーワード

Talking Face generation

1. 情報

論文リンク

https://github.com/Hangz-nju-cuhk/Talking-Face-Generation-DAVS

著者

Hang Zhou

投稿日付

2019

2. 先行研究と比べてどこがすごい？

本論文では顔画像と Audioの二つの情報を利用することでより自然なtalking face generationできるようになった。

3. 技術や手法のキモはどこ？

簡単に言うと、今回紹介するAIモデルは以下のような構築にすることで顔画像と Audioの二つの情報を利用する

1)Audioから話しているwardの推測をする。 2)顔画像から、その人の顔の特徴に関する情報(person ID)と話しているward(ward ID)に関する情報をAdversarial trainingを通して推測する 3) 1)での情報と2)のward IDを組み合わせることで話しているwardを精度よく推測する 4) person IDと3)の情報を組み合わせ、GANを用いることでtalking face generaitonを行う。

4. どうやって有効だと検証した？

定量的評価(GANの質)は画像変化評価の基準であるPSNR , SSIMを用いて行われた。

また、顔画像、Audioの2種の情報から推測したwardのAccuracyも調べた。

定性的評価として、一般の人々にアンケートを取って①この動画が本物に見えるのか？②唇の動きと音声にずれがあるように思う？という調査を行った

5. 議論はある？

6. 次に読むべき論文は？

7. 実装の詳細

https://liuziwei7.github.io/projects/TalkingFace

8. データセット

LRW dataset MS-Celeb-1M dataset

9. 結果の詳細

従来のモデルでは44%の人だけが本物と思ったが本モデルでは88％もの人々が本物だと感じたまた、唇の動きと音のずれは従来では58%が違和感がないと答え、本モデルでは88%の人が違和感がないと答えた。推測したwardのAccuracyは95%程度であり、従来のモデル(動画だけから推測したAccuracy 61%)より高い

このように動画のQualityとAccuracyは従来のAIより優れている。

雑感&メモ

88%の人がこの動画本物だと信じたと記述があるが、私個人的には作成された動画では頭部の動きが全くなく、非自然に感じた。

karakuri-ai / paper-readings