karakuri-ai / paper-readings

repository to research the machine learning papers
2 stars 1 forks source link

【2019】Talking Face Generation by Adversarially Disentangled Audio-Visual Representation #44

Open Yongtae723 opened 4 years ago

Yongtae723 commented 4 years ago

ざっくり言うと

今までのTalking face generation AIは顔画像 or Audioの片方の情報から作成させていた。 本論文では顔画像 と Audioの二つの情報を利用することでより自然なtalking face generationできるようになった。

キーワード

Talking Face generation

1. 情報

論文リンク

https://github.com/Hangz-nju-cuhk/Talking-Face-Generation-DAVS

著者

Hang Zhou

投稿日付

2019

2. 先行研究と比べてどこがすごい?

本論文では顔画像 と Audioの二つの情報を利用することでより自然なtalking face generationできるようになった。

3. 技術や手法のキモはどこ?

簡単に言うと、今回紹介するAIモデルは以下のような構築にすることで顔画像 と Audioの二つの情報を利用する

1)Audioから話しているwardの推測をする。 2)顔画像から、その人の顔の特徴に関する情報(person ID)と話しているward(ward ID)に関する情報をAdversarial trainingを通して推測する 3) 1)での情報と2)のward IDを組み合わせることで話しているwardを精度よく推測する 4) person IDと3)の情報を組み合わせ、GANを用いることでtalking face generaitonを行う。

4. どうやって有効だと検証した?

定量的評価(GANの質)は画像変化評価の基準であるPSNR , SSIMを用いて行われた。

また、顔画像、Audioの2種の情報から推測したwardのAccuracyも調べた。

定性的評価として、一般の人々にアンケートを取って①この動画が本物に見えるのか?②唇の動きと音声にずれがあるように思う?という調査を行った

5. 議論はある?

--

6. 次に読むべき論文は?

--

7. 実装の詳細

https://liuziwei7.github.io/projects/TalkingFace

8. データセット

LRW dataset MS-Celeb-1M dataset

9. 結果の詳細

従来のモデルでは44%の人だけが本物と思ったが本モデルでは88%もの人々が本物だと感じた また、唇の動きと音のずれは従来では58%が違和感がないと答え、本モデルでは88%の人が違和感がないと答えた。 推測したwardのAccuracyは95%程度であり、従来のモデル(動画だけから推測したAccuracy 61%)より高い

このように動画のQualityとAccuracyは従来のAIより優れている。

雑感&メモ

88%の人がこの動画本物だと信じたと記述があるが、私個人的には作成された動画では頭部の動きが全くなく、非自然に感じた。