【2024/06】Generating Speakers by Prompting Listener Impressions for Pre-trained Multi-Speaker Text-to-Speech Systems

論文タイトル（原文まま）

Generating Speakers by Prompting Listener Impressions for Pre-trained Multi-Speaker Text-to-Speech Systems

一言でいうと

リスナーの印象からプロンプトを生成し、マルチスピーカーTTSシステムで話者の音響特性を制御する新しい手法を提案。

論文リンク

Generating Speakers by Prompting Listener Impressions for Pre-trained Multi-Speaker Text-to-Speech Systems

著者/所属機関

Zhengyang Chen (上海交通大学, 国立情報学研究所)
Xuechen Liu (国立情報学研究所)
Erica Cooper (情報通信研究機構)
Junichi Yamagishi (国立情報学研究所)
Yanmin Qian (上海交通大学)

投稿日付

2024/06/13

概要

In this paper,

ユーザーが音声合成システムの話者の音響特性を指定し、制御するための新しい方法を提案します。リスナーの印象を使用してプロンプトを構築し、話者の特性を自然に説明できるようにします。Low-rank Adaptation (LoRA) 技術を採用し、プロンプトテキストから話者関連の特性を抽出します。

As a result,

提案手法は、従来の識別的手法と生成的手法を組み合わせることで、話者関連の情報をより良く捉え、より高い忠実度の音声を生成できることを示しました。

先行研究と比べてどこがすごい？

従来のプロンプト駆動型TTSシステムでは、プロンプトと音声のペアデータを収集する必要がありましたが、本研究ではリスナーの印象スコアを使用することで、データ収集の効率を大幅に向上させました。また、プロンプト-話者モジュールをTTSシステムから分離し、システムの柔軟性と互換性を向上させました。

技術や手法のキモはどこ？

Low-rank Adaptation (LoRA) 技術の採用により、事前学習された言語モデルを迅速にカスタマイズ
リスナーの印象スコアからプロンプトを生成
識別的手法と生成的手法の組み合わせによる話者埋め込みの生成

どうやって有効だと検証した？

FADスコアと自然度MOSによる音声の忠実度と自然度の評価
見た話者と見ない話者のシナリオにおけるMOSスコアのスピアマン順位相関係数（SRCC）の計算
リスニングテストにより100人の日本人ネイティブリスナーを募集し、評価

議論はある？

見ない話者のシナリオでは、プロンプトの話者特性を捉えるシステムの能力が弱まることが確認されました。これは、CSJのプロンプトデータ量が限られているためです。今後は、大量の音声データのために話者印象プロンプトを自動生成する予定です。

結果

LoRAモジュールが音声合成において不可欠な役割を果たしている
生成フローマッチングモデルが識別手法に比べて音声の忠実度と自然度において優れている
識別および生成技術の組み合わせが合成音声の忠実度のさらなる向上をもたらす

次に読むべき論文は？

Z. Guo, Y. Leng, Y. Wu, S. Zhao, and X. Tan, “Prompttts: Controllable text-to-speech with text descriptions,” ICASSP 2023
Y. Leng, Z. Guo, K. Shen, X. Tan, Z. Ju, Y. Liu, Y. Liu, D. Yang, L. Zhang, K. Song et al., “Prompttts 2: Describing and generating voices with text prompt,” arXiv 2023

この研究は、プロンプトを使用して音声合成システムの話者特性を制御する新しい方法を提案しており、リスナーの印象スコアを使用することでデータ収集の効率を向上させています。識別および生成手法の組み合わせにより、より高い忠実度の音声を生成することができます。

手法の詳細（数式など）

識別モデルの損失関数: [ L = |ẽ - e|^2 + (1 - \text{cosine similarity}(ẽ, e)) ]

フローマッチングアルゴリズムの条件付きフローマッチング目的: [ LCFM(θ) = Et,q(x1),pt(x|x1) |vt(x, θ) - ut(x|x1)|^2 ]

生成手法の話者埋め込み生成: [ \frac{d}{dt} ϕt(x) = vt(x, oCLS/ẽ; θ); ϕ0(x) = x0 ∼ N(0, I) ]

personabb / survey_paper