Z. Guo, Y. Leng, Y. Wu, S. Zhao, and X. Tan, “Prompttts: Controllable text-to-speech with text descriptions,” ICASSP 2023
Y. Leng, Z. Guo, K. Shen, X. Tan, Z. Ju, Y. Liu, Y. Liu, D. Yang, L. Zhang, K. Song et al., “Prompttts 2: Describing and generating voices with text prompt,” arXiv 2023
論文タイトル(原文まま)
Generating Speakers by Prompting Listener Impressions for Pre-trained Multi-Speaker Text-to-Speech Systems
一言でいうと
リスナーの印象からプロンプトを生成し、マルチスピーカーTTSシステムで話者の音響特性を制御する新しい手法を提案。
論文リンク
Generating Speakers by Prompting Listener Impressions for Pre-trained Multi-Speaker Text-to-Speech Systems
著者/所属機関
Zhengyang Chen (上海交通大学, 国立情報学研究所)
Xuechen Liu (国立情報学研究所)
Erica Cooper (情報通信研究機構)
Junichi Yamagishi (国立情報学研究所)
Yanmin Qian (上海交通大学)
投稿日付
2024/06/13
概要
In this paper,
ユーザーが音声合成システムの話者の音響特性を指定し、制御するための新しい方法を提案します。リスナーの印象を使用してプロンプトを構築し、話者の特性を自然に説明できるようにします。Low-rank Adaptation (LoRA) 技術を採用し、プロンプトテキストから話者関連の特性を抽出します。
As a result,
提案手法は、従来の識別的手法と生成的手法を組み合わせることで、話者関連の情報をより良く捉え、より高い忠実度の音声を生成できることを示しました。
先行研究と比べてどこがすごい?
従来のプロンプト駆動型TTSシステムでは、プロンプトと音声のペアデータを収集する必要がありましたが、本研究ではリスナーの印象スコアを使用することで、データ収集の効率を大幅に向上させました。また、プロンプト-話者モジュールをTTSシステムから分離し、システムの柔軟性と互換性を向上させました。
技術や手法のキモはどこ?
どうやって有効だと検証した?
議論はある?
見ない話者のシナリオでは、プロンプトの話者特性を捉えるシステムの能力が弱まることが確認されました。これは、CSJのプロンプトデータ量が限られているためです。今後は、大量の音声データのために話者印象プロンプトを自動生成する予定です。
結果
次に読むべき論文は?
コメント
この研究は、プロンプトを使用して音声合成システムの話者特性を制御する新しい方法を提案しており、リスナーの印象スコアを使用することでデータ収集の効率を向上させています。識別および生成手法の組み合わせにより、より高い忠実度の音声を生成することができます。
手法の詳細(数式など)
識別モデルの損失関数: [ L = |ẽ - e|^2 + (1 - \text{cosine similarity}(ẽ, e)) ]
フローマッチングアルゴリズムの条件付きフローマッチング目的: [ LCFM(θ) = Et,q(x1),pt(x|x1) |vt(x, θ) - ut(x|x1)|^2 ]
生成手法の話者埋め込み生成: [ \frac{d}{dt} ϕt(x) = vt(x, oCLS/ẽ; θ); ϕ0(x) = x0 ∼ N(0, I) ]