Open Yongtae723 opened 4 years ago
今までのTalking face generation AIは顔画像 or Audioの片方の情報から作成させていた。 本論文では顔画像 と Audioの二つの情報を利用することでより自然なtalking face generationできるようになった。
Talking Face generation
https://github.com/Hangz-nju-cuhk/Talking-Face-Generation-DAVS
Hang Zhou
2019
本論文では顔画像 と Audioの二つの情報を利用することでより自然なtalking face generationできるようになった。
簡単に言うと、今回紹介するAIモデルは以下のような構築にすることで顔画像 と Audioの二つの情報を利用する
1)Audioから話しているwardの推測をする。 2)顔画像から、その人の顔の特徴に関する情報(person ID)と話しているward(ward ID)に関する情報をAdversarial trainingを通して推測する 3) 1)での情報と2)のward IDを組み合わせることで話しているwardを精度よく推測する 4) person IDと3)の情報を組み合わせ、GANを用いることでtalking face generaitonを行う。
定量的評価(GANの質)は画像変化評価の基準であるPSNR , SSIMを用いて行われた。
また、顔画像、Audioの2種の情報から推測したwardのAccuracyも調べた。
定性的評価として、一般の人々にアンケートを取って①この動画が本物に見えるのか?②唇の動きと音声にずれがあるように思う?という調査を行った
--
https://liuziwei7.github.io/projects/TalkingFace
LRW dataset MS-Celeb-1M dataset
従来のモデルでは44%の人だけが本物と思ったが本モデルでは88%もの人々が本物だと感じた また、唇の動きと音のずれは従来では58%が違和感がないと答え、本モデルでは88%の人が違和感がないと答えた。 推測したwardのAccuracyは95%程度であり、従来のモデル(動画だけから推測したAccuracy 61%)より高い
このように動画のQualityとAccuracyは従来のAIより優れている。
88%の人がこの動画本物だと信じたと記述があるが、私個人的には作成された動画では頭部の動きが全くなく、非自然に感じた。
ざっくり言うと
今までのTalking face generation AIは顔画像 or Audioの片方の情報から作成させていた。 本論文では顔画像 と Audioの二つの情報を利用することでより自然なtalking face generationできるようになった。
キーワード
Talking Face generation
1. 情報
論文リンク
https://github.com/Hangz-nju-cuhk/Talking-Face-Generation-DAVS
著者
Hang Zhou
投稿日付
2019
2. 先行研究と比べてどこがすごい?
本論文では顔画像 と Audioの二つの情報を利用することでより自然なtalking face generationできるようになった。
3. 技術や手法のキモはどこ?
簡単に言うと、今回紹介するAIモデルは以下のような構築にすることで顔画像 と Audioの二つの情報を利用する
1)Audioから話しているwardの推測をする。 2)顔画像から、その人の顔の特徴に関する情報(person ID)と話しているward(ward ID)に関する情報をAdversarial trainingを通して推測する 3) 1)での情報と2)のward IDを組み合わせることで話しているwardを精度よく推測する 4) person IDと3)の情報を組み合わせ、GANを用いることでtalking face generaitonを行う。
4. どうやって有効だと検証した?
定量的評価(GANの質)は画像変化評価の基準であるPSNR , SSIMを用いて行われた。
また、顔画像、Audioの2種の情報から推測したwardのAccuracyも調べた。
定性的評価として、一般の人々にアンケートを取って①この動画が本物に見えるのか?②唇の動きと音声にずれがあるように思う?という調査を行った
5. 議論はある?
--
6. 次に読むべき論文は?
--
7. 実装の詳細
https://liuziwei7.github.io/projects/TalkingFace
8. データセット
LRW dataset MS-Celeb-1M dataset
9. 結果の詳細
従来のモデルでは44%の人だけが本物と思ったが本モデルでは88%もの人々が本物だと感じた また、唇の動きと音のずれは従来では58%が違和感がないと答え、本モデルでは88%の人が違和感がないと答えた。 推測したwardのAccuracyは95%程度であり、従来のモデル(動画だけから推測したAccuracy 61%)より高い
このように動画のQualityとAccuracyは従来のAIより優れている。
雑感&メモ
88%の人がこの動画本物だと信じたと記述があるが、私個人的には作成された動画では頭部の動きが全くなく、非自然に感じた。