WaveGlow: A Flow-based Generative Network for Speech Synthesis

icoxfog417 commented 5 years ago

一言でいうと

Glow+WaveNetの手法により高速な音声生成を行う手法。ネットワークを可逆変換にする(Glow)ことで、ノイズ=>音声の尤度と音声=>ノイズの尤度を等価にし、計算しやすい後者から前者を計算する。(可逆な)アフィン変換的な処理を行うが、このシフト量をWaveNet on メルケプストラムで計算する。

論文リンク

https://arxiv.org/abs/1811.00002v1

著者/所属機関

Ryan Prenger, Rafael Valle, Bryan Catanzaro

NVIDIA Corporation

投稿日付(yyyy/MM/dd)

2018/10/31

概要

新規性・差分

手法

結果

アフィン変換のシフト量は、データを半分に割った片割れから計算を行う(x_a, x_bに分割した場合x_aからシフト量を計算)。シフトはx_bのみに適用、x_aはそのままにする。シフト対象については、入れ替えを行う(データの同じパートが常にx_aになるわけではない)。この入れ替え対象の決定はランダムで行われていたが、これを1x1のinvertibleな変換に置き換えたのもGlow( #828 )の一つの貢献。

icoxfog417 commented 5 years ago

実装が公開 https://github.com/NVIDIA/waveglow

icoxfog417 commented 5 years ago

Chainer実装 https://github.com/dhgrs/chainer-WaveGlow

icoxfog417 commented 5 years ago

学習済みモデルが公開 https://github.com/NVIDIA/tacotron2

icoxfog417 commented 5 years ago

解説スライド https://docs.google.com/presentation/d/1bKd7nLgURoQA3YvWZNkxfA9h7Zu3wjeoSc_vMA77thc/edit