私たちは、Speech-MASSIVEという、MASSIVEテキストコーパスの一部に対応する音声データを含む多言語のSpoken Language Understanding(SLU)データセットを提供します。Speech-MASSIVEは、異なる言語ファミリーから12言語をカバーし、MASSIVEからの補足を受けて、意図予測とスロット埋め込みタスクのための注釈があります。当社の拡張は、大幅に多言語化されたSLUデータセットの不足と、基盤モデル(LLM、音声エンコーダー)を評価するための多目的な音声データセットの需要の増加によって促されます。私たちは、マルチモーダル、マルチタスク、マルチリンガルのデータセットを提供し、ゼロショット、フューショット、および完全なファインチューニングのさまざまなトレーニングシナリオで、カスケードとエンドツーエンドのアーキテクチャを使用してSLUのベースラインを報告します。さらに、Speech-MASSIVEが、音声の書き起こし、言語識別、および音声翻訳などの他のタスクのベンチマーキングに適していることを示します。データセット、モデル、およびコードは、次のURLで公開されています:https://github.com/hlt-mt/Speech-MASSIVE
タイトル: Speech-MASSIVE: SLUおよびそれ以上のためのマルチリンガル音声データセット
リンク: https://arxiv.org/abs/2408.03900
概要:
私たちは、Speech-MASSIVEという、MASSIVEテキストコーパスの一部に対応する音声データを含む多言語のSpoken Language Understanding(SLU)データセットを提供します。Speech-MASSIVEは、異なる言語ファミリーから12言語をカバーし、MASSIVEからの補足を受けて、意図予測とスロット埋め込みタスクのための注釈があります。当社の拡張は、大幅に多言語化されたSLUデータセットの不足と、基盤モデル(LLM、音声エンコーダー)を評価するための多目的な音声データセットの需要の増加によって促されます。私たちは、マルチモーダル、マルチタスク、マルチリンガルのデータセットを提供し、ゼロショット、フューショット、および完全なファインチューニングのさまざまなトレーニングシナリオで、カスケードとエンドツーエンドのアーキテクチャを使用してSLUのベースラインを報告します。さらに、Speech-MASSIVEが、音声の書き起こし、言語識別、および音声翻訳などの他のタスクのベンチマーキングに適していることを示します。データセット、モデル、およびコードは、次のURLで公開されています:https://github.com/hlt-mt/Speech-MASSIVE