Open icoxfog417 opened 5 years ago
Glow+WaveNetの手法により高速な音声生成を行う手法。ネットワークを可逆変換にする(Glow)ことで、ノイズ=>音声の尤度と音声=>ノイズの尤度を等価にし、計算しやすい後者から前者を計算する。(可逆な)アフィン変換的な処理を行うが、このシフト量をWaveNet on メルケプストラムで計算する。
https://arxiv.org/abs/1811.00002v1
Ryan Prenger, Rafael Valle, Bryan Catanzaro
2018/10/31
アフィン変換のシフト量は、データを半分に割った片割れから計算を行う(x_a, x_bに分割した場合x_aからシフト量を計算)。シフトはx_bのみに適用、x_aはそのままにする。シフト対象については、入れ替えを行う(データの同じパートが常にx_aになるわけではない)。この入れ替え対象の決定はランダムで行われていたが、これを1x1のinvertibleな変換に置き換えたのもGlow( #828 )の一つの貢献。
実装が公開 https://github.com/NVIDIA/waveglow
Chainer実装 https://github.com/dhgrs/chainer-WaveGlow
学習済みモデルが公開 https://github.com/NVIDIA/tacotron2
解説スライド https://docs.google.com/presentation/d/1bKd7nLgURoQA3YvWZNkxfA9h7Zu3wjeoSc_vMA77thc/edit
一言でいうと
Glow+WaveNetの手法により高速な音声生成を行う手法。ネットワークを可逆変換にする(Glow)ことで、ノイズ=>音声の尤度と音声=>ノイズの尤度を等価にし、計算しやすい後者から前者を計算する。(可逆な)アフィン変換的な処理を行うが、このシフト量をWaveNet on メルケプストラムで計算する。
論文リンク
https://arxiv.org/abs/1811.00002v1
著者/所属機関
Ryan Prenger, Rafael Valle, Bryan Catanzaro
投稿日付(yyyy/MM/dd)
2018/10/31
概要
新規性・差分
手法
結果
コメント
アフィン変換のシフト量は、データを半分に割った片割れから計算を行う(x_a, x_bに分割した場合x_aからシフト量を計算)。シフトはx_bのみに適用、x_aはそのままにする。シフト対象については、入れ替えを行う(データの同じパートが常にx_aになるわけではない)。この入れ替え対象の決定はランダムで行われていたが、これを1x1のinvertibleな変換に置き換えたのもGlow( #828 )の一つの貢献。