GERATING DIVERSE AND NATURAL TEXT-TO-SPEECH SAMPLES USING A QUANTIZED FINE-GRAINED VAE AND AUTOREGRESSIVE PROSODY PRIOR - Githubissues

supikiti / Awesome-tts-and-vc

Here is a summary of the conference papers we read.

7 stars 0 forks source link

GERATING DIVERSE AND NATURAL TEXT-TO-SPEECH SAMPLES USING A QUANTIZED FINE-GRAINED VAE AND AUTOREGRESSIVE PROSODY PRIOR #5

Open supikiti opened 4 years ago

supikiti commented 4 years ago

リンク

https://arxiv.org/pdf/2002.03788.pdf

どんなもの？

VQ-VAE TTSを提案

先行研究と比べてどこがすごい？

時系列間の潜在変数の変化をモデリングすることにより高品質な音声合成を実現

技術と手法のキモはどこ？

以下の2段階学習で構成されている
1. VQ-VAEで韻律を離散的な潜在変数として抽出
2. 韻律の潜在変数とTacotronのEncoderによるembeddingを入力とするARを学習

どうやって有効だと検証した？

客観評価と主観評価により評価

議論はある？

次に読むべき論文

supikiti commented 4 years ago

VAEの潜在表現において時系列間の関係を考慮 https://papers.nips.cc/paper/5653-a-recurrent-latent-variable-model-for-sequential-data.pdf, https://arxiv.org/pdf/1412.6581.pdf