Speech-MASSIVE: SLU などに対応する多言語音声データセット

yukihiko-fuyuki commented 2 months ago

タイトル: Speech-MASSIVE: SLU などに対応する多言語音声データセット

リンク: https://arxiv.org/abs/2408.03900

概要:

音声言語理解（SLU）のための多言語データセット「Speech-MASSIVE」を紹介します。MASSIVEテキストコーパスの音声版を一部含み、異なる語族の12言語を網羅しています。Speech-MASSIVEはMASSIVEから、意図予測およびスロットフィリングタスクのアノテーションを継承しています。大規模多言語SLUデータセットの不足と、言語やタスクを超えた基盤モデル（LLM、音声エンコーダー）を評価するための汎用性の高い音声データセットの需要の高まりに応えるために、この拡張を開発しました。本稿では、マルチモーダル、マルチタスク、多言語のデータセットを提供し、さまざまなトレーニングシナリオ（ゼロショット、フューショット、フルファインチューニング）において、カスケード型およびエンドツーエンド型の両方のアーキテクチャを用いたSLUのベースラインを報告します。さらに、音声文字起こし、言語識別、音声翻訳など、他のタスクのベンチマークにもSpeech-MASSIVEが適していることを示します。データセット、モデル、コードはhttps://github.com/hlt-mt/Speech-MASSIVEで公開されています。

yukihiko-fuyuki commented 2 months ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

データセット
自然言語処理
音声分離

yukihiko-fuyuki commented 2 months ago

論文要約

論文要約: Speech-MASSIVE: SLU などに対応する多言語音声データセット

本論文では、音声言語理解（SLU）を含む様々な音声処理タスクに利用できる新しい多言語音声データセット「Speech-MASSIVE」を紹介しています。

Speech-MASSIVEの特徴：

既存の多言語テキストデータセットMASSIVEの音声版を一部含む
英語、フランス語、ドイツ語など異なる語族の12言語を網羅
MASSIVEから意図予測とスロットフィリングのラベルを継承
大規模で、多言語、マルチモーダル、マルチタスクなデータセット

Speech-MASSIVEの利点：

これまで不足していた大規模多言語SLUデータセットを提供
言語やタスクを超えた汎用性の高い基盤モデル(LLM、音声エンコーダー)の評価が可能
ゼロショット、フューショット、フルファインチューニングなど様々な学習設定で利用可能
SLUだけでなく、音声文字起こし、言語識別、音声翻訳など他の音声処理タスクにも応用可能

Speech-MASSIVE公開情報:

データセット、学習済みモデル、コードは https://github.com/hlt-mt/Speech-MASSIVE で公開されている.

本論文の貢献:

Speech-MASSIVEデータセットの作成と公開
異なるアーキテクチャと学習設定を用いたSLUのベースライン結果の報告
Speech-MASSIVEが他の音声処理タスクにも有効であることの提示

Sunwood-ai-labs / Yukihiko