Speech-MASSIVE: SLUおよびそれ以上のためのマルチリンガル音声データセット

takachino commented 3 months ago

タイトル: Speech-MASSIVE: SLUおよびそれ以上のためのマルチリンガル音声データセット

リンク: https://arxiv.org/abs/2408.03900

概要:

私たちは、Speech-MASSIVEという、MASSIVEテキストコーパスの一部に対応する音声データを含む多言語のSpoken Language Understanding（SLU）データセットを提供します。Speech-MASSIVEは、異なる言語ファミリーから12言語をカバーし、MASSIVEからの補足を受けて、意図予測とスロット埋め込みタスクのための注釈があります。当社の拡張は、大幅に多言語化されたSLUデータセットの不足と、基盤モデル（LLM、音声エンコーダー）を評価するための多目的な音声データセットの需要の増加によって促されます。私たちは、マルチモーダル、マルチタスク、マルチリンガルのデータセットを提供し、ゼロショット、フューショット、および完全なファインチューニングのさまざまなトレーニングシナリオで、カスケードとエンドツーエンドのアーキテクチャを使用してSLUのベースラインを報告します。さらに、Speech-MASSIVEが、音声の書き起こし、言語識別、および音声翻訳などの他のタスクのベンチマーキングに適していることを示します。データセット、モデル、およびコードは、次のURLで公開されています：https://github.com/hlt-mt/Speech-MASSIVE

takachino commented 3 months ago

@offloading が以下のラベルを提案し、適用しました：

data collection
research
open-source

takachino commented 3 months ago

論文要約

「Speech-MASSIVE」という多言語のSpoken Language Understanding（SLU）データセットが提供されている。
12言語をカバーするこのデータセットは、意図予測とスロット埋め込みタスクのための注釈が含まれている。
多言語化されたSLUデータセットの不足とモデル評価の需要に応えるために作成された。
マルチモーダル、マルチタスク、マルチリンガルのデータセットで、カスケードとエンドツーエンドのアーキテクチャを使用してSLUのベースラインを報告している。
Speech-MASSIVEは、音声の書き起こし、言語識別、音声翻訳などの他のタスクのベンチマークに適していることが示されている。

takachino / Yukihiko