karakuri-ai / paper-readings

repository to research the machine learning papers
2 stars 1 forks source link

【2017】 Synthesizing Obama: Learning Lip Sync from Audio #37

Open Yongtae723 opened 4 years ago

Yongtae723 commented 4 years ago

ざっくり言うと

人が話しているAudioから、顔の動画を作製し、あたかもそのAudioを話している人 動画を作りだすAI 具体的な方法として AudioをAIに学習させるためにAudioのデータをMFCCに変換する。 →MFCCの時系列データをRNNで学習し、唇をPCAで表現した時の主要成分の重みを学ぶ。 →Audioから作製した唇の画像と唇周辺の要素(顎、頬等)を組み合わせる →最後の顔全体とback groundを合わせていかにもそれっぽいものを作る。

サンプル動画:https://www.youtube.com/watch?v=9Yq67CjDqvw training dataとして、Obamaのスピーチを用いている。

キーワード

Audio to Face

1. 情報

論文リンク

https://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf

著者

SUPASORN SUWAJANAKORN

投稿日付

2017年

2. 先行研究と比べてどこがすごい?

3. 技術や手法のキモはどこ?

4. どうやって有効だと検証した?

5. 議論はある?

6. 次に読むべき論文は?

7. 実装の詳細

8. データセット

9. 結果の詳細

雑感&メモ