【2017】　Synthesizing Obama: Learning Lip Sync from Audio

ざっくり言うと

人が話しているAudioから、顔の動画を作製し、あたかもそのAudioを話している人動画を作りだすAI 具体的な方法として AudioをAIに学習させるためにAudioのデータをMFCCに変換する。 →MFCCの時系列データをRNNで学習し、唇をPCAで表現した時の主要成分の重みを学ぶ。 →Audioから作製した唇の画像と唇周辺の要素(顎、頬等)を組み合わせる →最後の顔全体とback groundを合わせていかにもそれっぽいものを作る。

サンプル動画：https://www.youtube.com/watch?v=9Yq67CjDqvw training dataとして、Obamaのスピーチを用いている。

キーワード

Audio to Face

1. 情報

論文リンク

https://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf

著者

SUPASORN SUWAJANAKORN

投稿日付

2017年

karakuri-ai / paper-readings

【2017】　Synthesizing Obama: Learning Lip Sync from Audio #37

ざっくり言うと

キーワード

1. 情報

論文リンク

著者

投稿日付

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

7. 実装の詳細

8. データセット

9. 結果の詳細

雑感&メモ

karakuri-ai / paper-readings

【2017】 Synthesizing Obama: Learning Lip Sync from Audio #37

ざっくり言うと

キーワード

1. 情報

論文リンク

著者

投稿日付

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

7. 実装の詳細

8. データセット

9. 結果の詳細

雑感&メモ

【2017】　Synthesizing Obama: Learning Lip Sync from Audio #37