【2024/06】PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems

personabb commented 3 months ago

論文タイトル（原文まま）

PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems

一言でいうと

低遅延な音声対話システムのために、テキストと音声を並行して生成する新しい手法を提案し、その有効性を示した。

論文リンク

https://arxiv.org/abs/2406.12428

著者/所属機関

Kentaro Mitsui, Koh Mitsuda, Toshiaki Wakatsuki, Yukiya Hono, Kei Sawada rinna Co., Ltd., Tokyo, Japan

投稿日付(yyyy/MM/dd)

2024/06/19

概要

In this paper,

この論文では、テキストと音声の両方を処理するマルチモーダル言語モデルが音声対話システムでの応用の可能性を示す。しかし、現在のモデルは応答生成の遅延に関する2つの大きな課題に直面しているため、言語モデルの入力および出力シーケンスを拡張して、テキストと音声の並列生成をサポートする手法を提案する。これにより、応答内容の質を維持しながら遅延を改善できることを示した。

As a result,

我々の実験結果は、提案された手法が従来の方法と比較して遅延を大幅に削減しながら、応答の質を維持することを示した。また、複数のシーケンスで音声を生成することで、さらに遅延を削減できることを示した。

先行研究と比べてどこがすごい？

先行研究であるSpeechGPTやSpectronは、高品質な応答を生成するが、応答の遅延に関して課題があった。本研究では、テキストと音声を並行して生成することで、従来の手法と比較して遅延を大幅に削減している点が優れている。

技術や手法のキモはどこ？

テキストと音声の並列生成を可能にするPSLM（Parallel Speech Language Model）の提案。
音声トークン化とデトークン化の手法。
複数の音声ストリームを導入し、複数の音声トークンを同時にデコードすることで速度を向上。
HiFi-GANを使用した高品質な音声生成。

どうやって有効だと検証した？

内部データセットと公開された日本語指示データセットを使用して実験を行った。
提案手法と3つのCoMベースラインを比較。
自動評価（ChatGPTスコア、文字誤り率、失敗率、遅延シミュレーション）と人間評価を実施。

議論はある？

ASR機能を外部モジュールに依存しているため、PSLMアーキテクチャ内でのASRの実現が今後の研究課題。
単一話者の合成音声を使用しているため、実際の多様な話者の音声を受け入れる必要がある。
マルチターン対話設定の実験が行われておらず、将来的な研究方向として重要。

結果

提案されたPSLM手法は、従来の方法と比較して遅延を大幅に削減しながら、応答の質を維持することを実証した。複数の音声ストリームの導入により、さらに遅延を削減することが可能であることを示した。

次に読むべき論文は？

Zhang et al. (2023) "SpeechGPT: Empowering large language models with intrinsic cross-modal conversational abilities"
Nachmani et al. (2024) "Spoken question answering and speech continuation using spectrogram-powered LLM"

本研究は、音声対話システムの遅延を削減するための新しい手法を提案しており、実用的な応用に向けた重要なステップとなる。また、今後の研究では、ASR機能の統合や多様な話者への対応、マルチターン対話の実現が期待される。

手法の詳細（数式や理論展開など）

遅延LCoMの計算式: [ LCoM = Ds2t + DSQ + \frac{Ndec}{P} + Dt2s ] [ Ndec = NTQ + NTA + Noffset ]
PSLMの遅延LPSLMの計算式: [ LPSLM = DASR + DSQ + \frac{Noffset}{P \cdot S} + Dt2s ]
音声トークンのデコード速度向上のための多重ストリームの導入。
HiFi-GANを使用した非自己回帰型ニューラルボコーダーによる高品質音声生成の実装詳細（付録B参照）。

personabb commented 3 months ago

https://chatgpt.com/g/g-DTk1KpYjg-pdf-translator-for-sale/c/077a8fcb-e9e8-4de6-b286-32855e72d0c3

personabb commented 3 months ago

rinnaの論文

デモサイト https://rinnakk.github.io/research/publications/PSLM/index.html

personabb commented 3 months ago

https://rinnakk.github.io/research/

その他のrinnaの論文

personabb / survey_paper