WAVENET: A GENERATIVE MODEL FOR RAW AUDIO

Abstract

波長形式の生の音声画像を生成するWavenetについての論文。このモデルは過去のデータから確率的・自己回帰的にモデルを作成する。毎秒数万サンプルの音声を処理することができる。text2audioのタスクではSOTAをマークした。 WaveNetは多くのタスクに対応することができ、英語・中国語・音楽など複数のタスクで良い成績を収めている。自己回帰モデルとは

Screen Shot 2020-04-18 at 6 24 30

Introduction

本論文は、画像やテキストのような複雑な分布をモデル化するニューラル自己回帰的生成モデル触発されて、生の音声生成技術に適応したものである。ニューラルアーキテクチャを条件付き分布の積として使用して、ピクセルや単語上の同時確率をモデリングすることで生成ができる。

驚くべきことに、これらのアーキテクチャは何千ものランダム変数の分布をモデル化することができる。本論文が扱う問題は同様のアプローチが毎秒16,000サンプルの広帯域の生のオーディオ波形を生成することに成功するかどうかである。

この論文には下記が示されている。

WaveNetがTTS(Text2speech)の分野で主観的な自然さを持った生の音声信号を生成できること。
生の音声に必要な長距離の時間依存に対して、dilated causal convで対応したこと。
一つのモデルで様々なタスクを解けたこと。

WaveNet

今回生成したい波形は、直前の0~t-1の全ての状態で条件付けらている。この条件付き確率はPixelCNNのようにConv層のstackにより生成される。なお、Pooling層は存在しない。入出力の次元数は同じで、データの分布の対数尤度を最大化するようなデータがsoftmax層から出力される。

DILATED CAUSAL CONVOLUTIONS

WaveNetの主な構成要素。これは因果関係を利用したconv層である。モデルがデータの順序を誤って解釈しないように、出力されるXtはX0~Xt-1から生成され、未来のデータから影響を受けないようにしている。実際にはマスク層をConvカーネルと要素ごとに乗算することでこれを実現している。学習時は全てのXが吉なので条件付き予測を並列処理することができる。推論時は各ステップ推論を行なった後に、次のステップを推論する。 Causal conv(以下CaC)はrecurrent connectionを持たないので他のRNNよりも早い。 CaCの欠点は受容野が広くなると非常にたくさんのLayerが必要になる点である。その場合はDilation rateをあげて、間隔を開けて学習をすれば良い。本論文では1,2,4,8...と深い層になるにつれ2乗している。

SOFTMAX DISTRIBUTIONS

音声は基本的に16-bitなので、本来は各出力は65,536通り存在する。このパラメータを減らすために、 μ-law圧縮変換を使用し、255に非線形量子化を行う。この後にsoftmax distをかけることで出力している。これは混合ガウス分布などと違い、確率分布の仮定が必要なくなり、カテゴリ変数として扱いやすくなる。

GATED ACTIVATION UNITS

PixelCNNなどと同じgate activationを使用している

RESIDUAL AND SKIP CONNECTIONS

覚えておきたいフレーズ

A is factorised as a product of conditional probabilities as follow A は，次のように条件付き確率の積として因数分解される．

be conditioned on 〜で条件づけられる。

zerebom / paper-books