【2021/05】Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

論文タイトル（原文まま）

Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

一言でいうと

Grad-TTSは、拡散確率モデルを用いたテキスト音声変換モデルで、エンコーダとモノトニックアラインメントサーチを利用してメルスペクトログラムを生成します。

論文リンク

Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

著者/所属機関

Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Kudinov
所属機関: Huawei Technologies

投稿日付(yyyy/MM/dd)

2021/05/13

概要

In this paper,

スコアベースのデコーダを備えた新しいテキスト音声変換モデル「Grad-TTS」を紹介します。エンコーダによって予測され、モノトニックアラインメントサーチによってテキスト入力と整合された雑音を徐々に変換することによってメルスペクトログラムを生成します。確率微分方程式のフレームワークを使用し、音質と推論速度の間のトレードオフを明示的に制御できます。

As a result,

Grad-TTSは、少ない逆拡散反復回数で高品質のメルスペクトログラムを生成でき、GPUデバイス上でTacotron2を速度の点で上回ることができます。主観的な評価では、最先端のテキスト音声変換アプローチと競争力があることが示されています。

先行研究と比べてどこがすごい？

従来のモデル（Tacotron2、WaveNet、Glow-TTSなど）に比べて、Grad-TTSは推論速度が速く、少ないデコーダ反復回数で高品質の音声を生成できる点が優れています。また、音声生成の際に外部アライナーを必要としないため、モデルが簡潔で効果的です。

技術や手法のキモはどこ？

Grad-TTSは、拡散確率モデルを使用してデータ分布をモデル化し、モノトニックアラインメントサーチ（MAS）を用いてテキスト入力とメルスペクトログラムのアライメントを行います。これにより、逆拡散の反復回数を減らしても高品質の音声を生成することができます。

どうやって有効だと検証した？

LJSpeechデータセットを使用してモデルを訓練し、主観的評価（MOS）と客観的評価（対数尤度、推論速度）を行いました。MOSの結果では、Grad-TTSは他の最先端モデルと競争力があり、対数尤度においても優れた結果を示しました。

議論はある？

Grad-TTSの柔軟な推論フレームワークは、出力の品質と速度のトレードオフを明示的に制御できる点が特徴ですが、逆拡散の反復回数が多い場合の効率性についてはさらなる検討が必要です。また、エンドツーエンドのTTSシステムとしての拡張の可能性も示唆されています。

結果

Grad-TTSは、高品質のメルスペクトログラムを迅速に生成でき、他の最先端TTSモデルと比較して優れた性能を示しました。特に、10回の逆拡散反復でTacotron2を上回る速度で音声を生成できる点が特徴です。

次に読むべき論文は？

"Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search" by Kim et al. (2020)
"WaveGrad: Estimating Gradients for Waveform Generation" by Chen et al. (2021)
"DiffWave: A Versatile Diffusion Model for Audio Synthesis" by Kong et al. (2021)

Grad-TTSは、拡散確率モデルを用いた新しいアプローチであり、推論速度と音声品質のトレードオフを明示的に制御できる点が革新的です。今後の研究では、エンドツーエンドのTTSシステムとしての拡張や、ノイズスケジュールの最適化に関するさらなる調査が期待されます。

手法の詳細（数式や理論展開など）

フォワード拡散SDE: [dX_t = \frac{1}{2} Σ^{-1}(μ−X_t)β_tdt + \sqrt{β_t}dW_t, \quad t ∈ [0, T]]
リバース拡散SDE: [dX_t = \left( \frac{1}{2} Σ^{-1}(μ−X_t) − ∇ log p_t(X_t) \right) β_t dt + \sqrt{β_t} d\tilde{W}_t, \quad t ∈ [0, T]]
損失関数: [L_t(X0) = E{\epsilon_t} \left[ | s_θ(X_t, t) + λ(Σ, t)^{-1}\epsilon_t |^2_2 \right]]
最終的な拡散損失関数: [L{diff} = E{X_0, t} \left[ \lambdat E{\xi_t} \left[ \left| s_θ(X_t, μ, t) + \frac{\xi_t}{\sqrt{\lambda_t}} \right|^2_2 \right] \right]]

これにより、Grad-TTSモデルは高品質のメルスペクトログラムを生成するための最適なパラメータを学習します。

personabb / survey_paper