Open Hiroshiba opened 6 years ago
リアルタイムで波形生成可能なWaveRNNを提案
Efficient Neural Audio Synthesis https://arxiv.org/abs/1802.08435 ICLR2018
リアルタイム音声合成は1秒間に数万サンプル生成する必要がある。WaveNetはSoTAな音声合成手法だが、巨大なネットワーク構造を持つ自己回帰モデルであり、生成が遅い。そこで、ネットワーク構造が小さい自己回帰モデルを提案する。更に高速化の工夫を行い、モバイルCPUでリアルタイム音声合成可能にしたり、リアルタイムの16倍早く音声合成できる手法を提案する。
なるほど、RNNのまま時間のブロック単位で並列化するんですね。
リアルタイムで波形生成可能なWaveRNNを提案
論文本体・著者
Efficient Neural Audio Synthesis https://arxiv.org/abs/1802.08435 ICLR2018
解きたい問題
リアルタイム音声合成は1秒間に数万サンプル生成する必要がある。WaveNetはSoTAな音声合成手法だが、巨大なネットワーク構造を持つ自己回帰モデルであり、生成が遅い。そこで、ネットワーク構造が小さい自己回帰モデルを提案する。更に高速化の工夫を行い、モバイルCPUでリアルタイム音声合成可能にしたり、リアルタイムの16倍早く音声合成できる手法を提案する。
新規性
実装
実験・議論
読んだ中での不明点などの感想
関連論文