Closed takachino closed 3 months ago
@offloading が以下のラベルを提案し、適用しました:
本研究では、マルチモーダルオーディオ言語モデルにおける音楽理解の評価を目的としたMuChoMusicというベンチマークを紹介しています。このベンチマークは、音楽トラックに関する多肢選択問題から成り立ち、音楽概念や文化的・機能的文脈に関する知識と推論能力を評価します。研究では、5つのオープンソースモデルを評価し、言語モダリティへの依存などの問題を特定しました。データとコードはオープンソースで提供されています。
タイトル: MuChoMusic:マルチモーダルオーディオ言語モデルにおける音楽理解の評価
リンク: https://arxiv.org/abs/2408.01337
概要:
音声と言語を共に処理するマルチモーダルモデルは、音声理解において非常に有望であり、音楽分野でもますます採用されています。これらのモデルによって、ユーザーがテキスト経由でクエリを行い、特定の音声入力に関する情報を取得することが可能となり、言語ベースのインターフェースを通じて様々な音楽理解タスクを実現する可能性があります。ただし、これらの評価にはかなりの課題があり、現在の方法で音楽関連の入力を正しく解釈できる能力を効果的に評価する方法はまだ明確ではありません。この課題に着想を得て、音声に焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークであるMuChoMusicを紹介します。MuChoMusicは、2つの公開されている音楽データセットから取得された644曲の音楽トラックに関する1,187の多肢選択問題から成り立ち、すべてが人間の注釈者によって検証され、様々なジャンルをカバーしています。ベンチマーク内の質問は、基本的な音楽概念とそれらが文化的・機能的文脈との関係についての知識と推論能力を評価するように作成されています。ベンチマークによって提供される包括的な分析を通じて、我々は5つのオープンソースモデルを評価し、言語モダリティへの過度な依存など、いくつかの落とし穴を特定し、より良いマルチモーダル統合の必要性を指摘しています。データとコードはオープンソースで提供されています。