Open yukihiko-fuyuki opened 2 months ago
音声言語理解(SLU)のための多言語データセット「Speech-MASSIVE」を紹介します。MASSIVEテキストコーパスの音声版を一部含み、異なる語族の12言語を網羅しています。Speech-MASSIVEはMASSIVEから、意図予測およびスロットフィリングタスクのアノテーションを継承しています。大規模多言語SLUデータセットの不足と、言語やタスクを超えた基盤モデル(LLM、音声エンコーダー)を評価するための汎用性の高い音声データセットの需要の高まりに応えるために、この拡張を開発しました。本稿では、マルチモーダル、マルチタスク、多言語のデータセットを提供し、さまざまなトレーニングシナリオ(ゼロショット、フューショット、フルファインチューニング)において、カスケード型およびエンドツーエンド型の両方のアーキテクチャを用いたSLUのベースラインを報告します。さらに、音声文字起こし、言語識別、音声翻訳など、他のタスクのベンチマークにもSpeech-MASSIVEが適していることを示します。データセット、モデル、コードはhttps://github.com/hlt-mt/Speech-MASSIVEで公開されています。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
本論文では、音声言語理解(SLU)を含む様々な音声処理タスクに利用できる新しい多言語音声データセット「Speech-MASSIVE」を紹介しています。
Speech-MASSIVEの特徴:
Speech-MASSIVEの利点:
Speech-MASSIVE公開情報:
本論文の貢献:
タイトル: Speech-MASSIVE: SLU などに対応する多言語音声データセット
リンク: https://arxiv.org/abs/2408.03900
概要:
音声言語理解(SLU)のための多言語データセット「Speech-MASSIVE」を紹介します。MASSIVEテキストコーパスの音声版を一部含み、異なる語族の12言語を網羅しています。Speech-MASSIVEはMASSIVEから、意図予測およびスロットフィリングタスクのアノテーションを継承しています。大規模多言語SLUデータセットの不足と、言語やタスクを超えた基盤モデル(LLM、音声エンコーダー)を評価するための汎用性の高い音声データセットの需要の高まりに応えるために、この拡張を開発しました。本稿では、マルチモーダル、マルチタスク、多言語のデータセットを提供し、さまざまなトレーニングシナリオ(ゼロショット、フューショット、フルファインチューニング)において、カスケード型およびエンドツーエンド型の両方のアーキテクチャを用いたSLUのベースラインを報告します。さらに、音声文字起こし、言語識別、音声翻訳など、他のタスクのベンチマークにもSpeech-MASSIVEが適していることを示します。データセット、モデル、コードはhttps://github.com/hlt-mt/Speech-MASSIVEで公開されています。