【2024/06】The Interspeech 2024 Challenge on Speech Processing Using Discrete Units

論文タイトル（原文まま）

The Interspeech 2024 Challenge on Speech Processing Using Discrete Units

一言でいうと

離散単位を用いた音声処理の新しいベンチマークを提案し、多言語ASR、TTS、歌声合成の3つのタスクでその有効性を評価するチャレンジを紹介。

論文リンク

著者/所属機関

Xuankai Chang, Jiatong Shi, Jinchuan Tian, Yuning Wu, Yuxun Tang, Yihan Wu, Shinji Watanabe, Yossi Adi, Xie Chen, Qin Jin

Carnegie Mellon University, USA
The Hebrew University of Jerusalem, Israel
Shanghai Jiao Tong University, China
Renmin University of China, China

投稿日付

2024/06/11

概要

In this paper,

音声および音響信号を離散単位で表現する新しいアプローチの有効性を評価するため、Interspeech 2024チャレンジを提案しました。このチャレンジでは、多言語自動音声認識（ASR）、テキスト読み上げ（TTS）、歌声合成の3つの主要なタスクを設定し、各タスクにおける離散単位の適用可能性を評価します。

As a result,

提出されたシステムの初期結果は、離散単位がASRやTTS、SVSにおいて有効であることを示しています。特に、多言語ASRタスクにおいては、セマンティックトークンの使用が有望な結果を示しました。

先行研究と比べてどこがすごい？

従来の高次元特徴ベクトルを用いた手法に対して、離散単位を用いることで、計算効率の向上やデータ保存および伝送の効率化が期待されます。また、離散単位を用いることで、音声とテキストの統一モデリングが可能となり、音声生成やテキスト生成タスクの性能が向上することが示されています。

技術や手法のキモはどこ？

離散単位を用いた音声信号の表現方法と、それを活用した各タスク（ASR、TTS、SVS）のベンチマーク設計が本研究のキモです。具体的には、SSLモデルを使用した特徴抽出やk-meansクラスタリングによる離散トークンの生成方法が重要です。

どうやって有効だと検証した？

ベースラインシステムと提出システムの性能を、Character Error Rate（CER）、Mel Cepstral Distortion（MCD）、F0 Root Mean Square Error（F0 RMSE）、UTMOSなどの評価指標を用いて比較しました。また、多言語データセットや複数のテストセットを使用して、各システムの性能を総合的に評価しました。

議論はある？

現時点では詳細な議論は行われていませんが、初期結果から得られた観察として、離散単位が多言語ASRや高品質な音声再合成に有効であることが示されています。より詳細な分析と結論は、チャレンジ終了後に発表される予定です。

結果

ASRタスクでは、セマンティックトークンの使用が有望な結果を示し、TTSタスクではニューラルコーデックベースのモデルが高品質な音声合成を実現しました。SVSトラックでは、SSLベースの離散単位が強力なパフォーマンスを示しました。

次に読むべき論文は？

"On generative spoken language modeling from raw audio" by K. Lakhotia et al.
"Audiopalm: A large language model that can speak and listen" by P. K. Rubenstein et al.
"Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks" by S. Maiti et al.

この研究は、離散単位を用いた音声処理の新たな可能性を探る上で重要なステップとなるでしょう。今後の詳細な分析と結果に期待が寄せられます。

personabb / survey_paper