DwangoMediaVillage / paper_readings

Dwango Media Village内で行われている論文紹介の資料
58 stars 2 forks source link

Efficient Neural Audio Synthesis #39

Open Hiroshiba opened 6 years ago

Hiroshiba commented 6 years ago

リアルタイムで波形生成可能なWaveRNNを提案

論文本体・著者

Efficient Neural Audio Synthesis https://arxiv.org/abs/1802.08435 ICLR2018

解きたい問題

リアルタイム音声合成は1秒間に数万サンプル生成する必要がある。WaveNetはSoTAな音声合成手法だが、巨大なネットワーク構造を持つ自己回帰モデルであり、生成が遅い。そこで、ネットワーク構造が小さい自己回帰モデルを提案する。更に高速化の工夫を行い、モバイルCPUでリアルタイム音声合成可能にしたり、リアルタイムの16倍早く音声合成できる手法を提案する。

新規性

実装

実験・議論

読んだ中での不明点などの感想

関連論文

kogaki commented 6 years ago

なるほど、RNNのまま時間のブロック単位で並列化するんですね。