【2016/09】WAVENET: A GENERATIVE MODEL FOR RAW AUDIO

論文タイトル（原文まま）

WAVENET: A GENERATIVE MODEL FOR RAW AUDIO

一言でいうと

WaveNetは、生成モデルを用いて生の音声波形を生成し、従来の音声合成システムを凌駕する自然な音声を生成する。

論文リンク

著者/所属機関

Aäron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu Google DeepMind, London, UK

投稿日付(yyyy/MM/dd)

2016/09/19

概要

In this paper,

本論文では、生の音声波形を生成するための深層ニューラルネットワークであるWaveNetを紹介する。WaveNetは完全に確率的かつ自己回帰的なモデルであり、各オーディオサンプルの予測分布はすべての以前のサンプルに条件付けされる。

As a result,

WaveNetは、テキスト音声合成において従来のパラメトリックおよび連結システムを上回る自然な音声を生成する。さらに、音楽のモデリングにおいても新規でリアルな音楽断片を生成し、音素認識においても有望な結果を示す。

先行研究と比べてどこがすごい？

WaveNetは従来の音声合成システムに比べて、はるかに自然な音声を生成できる点が優れている。特に、話者の特性を忠実に捉えることができ、多様な話者の音声を単一のモデルで生成できる。

技術や手法のキモはどこ？

WaveNetの技術的なキモは、拡張因果畳み込みを使用して非常に大きな受容野を持つ新しいアーキテクチャを開発し、長距離の時間依存性を効果的にモデリングする点にある。また、非線形因果フィルタとして機能し、量子化信号の複雑な関係をモデル化する。

どうやって有効だと検証した？

WaveNetの有効性は、主観的な聴取テスト（MOSテストと対比較テスト）を通じて検証された。テスト結果は、WaveNetが従来の音声合成システムよりも自然な音声を生成することを示している。

議論はある？

WaveNetは非常に優れた性能を示したが、生成された音声の長期的な一貫性においてはまだ改善の余地がある。また、計算コストが高いため、リアルタイムでの適用にはさらなる最適化が必要である。

結果

WaveNetは、テキスト音声合成において従来の最高のシステムを上回る自然な音声を生成することができた。また、音楽の生成においても有望な結果を示し、音素認識においても優れた性能を発揮した。

次に読むべき論文は？

Pixel Recurrent Neural Networks (van den Oord et al., 2016a)
Conditional Image Generation with PixelCNN Decoders (van den Oord et al., 2016b)

WaveNetは、音声合成の分野において革新的な成果を上げており、今後の研究が期待される。また、他のオーディオモダリティへの応用も興味深い。

手法の詳細（数式や理論展開など）

WaveNetの生成モデルは、生のオーディオ波形の結合確率を条件付き確率の積として因数分解する。

[ p(x) = \prod_{t=1}^T p(x_t | x1, \ldots, x{t-1}) ]

各オーディオサンプル ( x_t ) は、すべての前のタイムステップのサンプルに条件付けされる。条件付き確率分布は畳み込み層のスタックによってモデル化される。拡張因果畳み込みを使用することで、受容野を大幅に増やしながら計算コストを抑えることができる。ゲート付き活性化ユニットを用いて非線形性を導入し、残差およびスキップ接続を使用してネットワークの訓練を効率化している。

具体的な数式や理論展開については、本文を参照。

personabb / survey_paper