Open yukihiko-fuyuki opened 1 month ago
背景: 音声と言語を同時に理解するマルチモーダルモデルは、音楽分野でも注目されています。しかし、これらのモデルが音楽をどれだけ理解できるかを評価する方法は確立されていません。
提案: MuChoMusicと呼ばれる、音楽理解を評価するための新しいベンチマークを提案します。
MuChoMusicの特徴:
評価結果: MuChoMusicを用いて既存の5つのモデルを評価した結果、現状では言語情報への依存が強すぎるなど、改善点が多く見つかりました。より高度な音声と言語の統合が求められます。
貢献: MuChoMusicは、今後のマルチモーダルモデル開発において、音楽理解度を評価する共通の指標となることが期待されます。データとコードは公開されています。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: MuChoMusic:マルチモーダル音声言語モデルにおける音楽理解の評価
リンク: https://arxiv.org/abs/2408.01337
概要:
音声と言語を同時に処理するマルチモーダルモデルは、音声理解において大きな可能性を秘めており、音楽分野でも急速に普及しています。これらのモデルは、ユーザーがテキストでクエリを送り、与えられた音声入力に関する情報を取得できるようにすることで、言語ベースのインターフェースを介して様々な音楽理解タスクを可能にする可能性を秘めています。しかし、その評価には大きな課題があり、現在の方法で音楽関連入力を正しく解釈する能力を効果的に評価する方法が不明瞭なままです。そこで本研究では、音声に焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークであるMuChoMusicを提案します。MuChoMusicは、2つの公開されている音楽データセットから取得した644の音楽トラックに対する、すべて人間の注釈者によって検証された1,187の多肢選択問題で構成され、幅広いジャンルをカバーしています。ベンチマークの質問は、基本的な音楽的概念とその文化的および機能的文脈との関係を網羅するいくつかの次元において、知識と推論能力を評価するように作成されています。ベンチマークによって得られる包括的な分析を通じて、5つのオープンソースモデルを評価し、言語モダリティへの過度の依存など、いくつかの落とし穴を特定し、より良いマルチモーダル統合の必要性を指摘します。データとコードはオープンソースです。