【2023/07】VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design

personabb commented 5 months ago

論文タイトル（原文まま）

VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design

一言でいうと

単一段階のテキスト音声変換モデルであるVITS2は、対向学習とアーキテクチャ設計を用いて、音声の自然さと効率を向上させる。

論文リンク

著者/所属機関

Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong, Sangjin Kim / SK Telecom, South Korea

投稿日付

2023/07/31

概要

In this paper,

単一段階のテキスト音声変換モデルが二段階パイプラインシステムを上回る成果を示しています。本論文では、従来のモデルの断続的な不自然さ、計算効率の低さ、音素変換への依存といった問題を解決するため、VITS2を提案します。

As a result,

提案されたVITS2は、自然な音声合成、効率的な訓練と推論を実現し、音素変換への依存を大幅に減少させることに成功しました。

先行研究と比べてどこがすごい？

従来の単一段階モデルの問題点を解決し、音声の自然さ、類似性、訓練および推論の効率を向上させた点が優れています。

技術や手法のキモはどこ？

対向学習を用いた確率的持続時間予測器
トランスフォーマーブロックを活用した正規化フロー
話者条件付きテキストエンコーダ
ガウスノイズを用いたモノトニックアラインメント検索

どうやって有効だと検証した？

LJ SpeechデータセットとVCTKデータセットを用いた実験
クラウドソーシングを用いた平均意見スコア（MOS）テストおよび比較平均意見スコア（CMOS）テスト
明瞭度テストと文字エラー率（CER）の計算
合成と訓練の速度比較

議論はある？

現時点では特定の議論は記載されていませんが、今後の研究でさらなる検証や改良が必要です。

結果

VITS2は、従来のモデルよりも自然な音声を合成し、訓練および推論の効率を向上させ、音素変換への依存を大幅に減少させました。

次に読むべき論文は？

J. Kim et al., “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech,” in International Conference on Machine Learning, 2021.
D. Lim et al., “JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech,” in Proc. Interspeech 2022, 2022.

手法の詳細（数式や理論展開など）

対向学習のための損失関数: L{adv}(D) = E(d,zd,h{text}) [(D(d, h{text})− 1)^2 + (D(G(zd, h{text}), h{text}))^2] L{adv}(G) = E(zd,h{text}) [(D(G(zd, h{text}))− 1)^2] L{mse} = MSE(G(zd, h{text}), d)-
ガウスノイズを用いたモノトニックアラインメント検索: P_{i,j} = logN (z_j;μ_i, σi) Q{i,j} = max{A} Σ{k=1}^{j} logN (zk;μ{A(k)}, σ{A(k)}) = max(Q{i-1,j-1}, Q{i,j-1}) + P{i,j} + ϵ
トランスフォーマーブロックで学習された注意スコアマップと畳み込みブロックの受容野: 図2参照

personabb commented 5 months ago

https://chatgpt.com/g/g-DTk1KpYjg-pdf-translator/c/a2923db4-3291-415e-9c8b-b6e24d489961

personabb commented 5 months ago

解説記事 https://mmvc.fanbox.cc/posts/6501096

personabb / survey_paper