Sunwood-ai-labs / Yukihiko

Fusion of Python and GIMP
MIT License
5 stars 4 forks source link

MuChoMusic:マルチモーダル音声言語モデルにおける音楽理解の評価 #80

Open yukihiko-fuyuki opened 1 month ago

yukihiko-fuyuki commented 1 month ago

タイトル: MuChoMusic:マルチモーダル音声言語モデルにおける音楽理解の評価

リンク: https://arxiv.org/abs/2408.01337

概要:

音声と言語を同時に処理するマルチモーダルモデルは、音声理解において大きな可能性を秘めており、音楽分野でも急速に普及しています。これらのモデルは、ユーザーがテキストでクエリを送り、与えられた音声入力に関する情報を取得できるようにすることで、言語ベースのインターフェースを介して様々な音楽理解タスクを可能にする可能性を秘めています。しかし、その評価には大きな課題があり、現在の方法で音楽関連入力を正しく解釈する能力を効果的に評価する方法が不明瞭なままです。そこで本研究では、音声に焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークであるMuChoMusicを提案します。MuChoMusicは、2つの公開されている音楽データセットから取得した644の音楽トラックに対する、すべて人間の注釈者によって検証された1,187の多肢選択問題で構成され、幅広いジャンルをカバーしています。ベンチマークの質問は、基本的な音楽的概念とその文化的および機能的文脈との関係を網羅するいくつかの次元において、知識と推論能力を評価するように作成されています。ベンチマークによって得られる包括的な分析を通じて、5つのオープンソースモデルを評価し、言語モダリティへの過度の依存など、いくつかの落とし穴を特定し、より良いマルチモーダル統合の必要性を指摘します。データとコードはオープンソースです。

yukihiko-fuyuki commented 1 month ago

論文要約

論文要約: MuChoMusic:マルチモーダル音声言語モデルにおける音楽理解の評価

yukihiko-fuyuki commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました: