Key points are not available for this paper at this time.
音声と言語を共同で処理するマルチモーダルモデルは、音声理解において大きな可能性を秘めており、音楽領域でますます採用されています。ユーザーがテキストを介して問い合わせを行い、特定の音声入力に関する情報を得ることを可能にすることによって、これらのモデルは言語ベースのインターフェースを通じてさまざまな音楽理解タスクを実現する可能性を秘めています。しかし、これらのモデルの評価は considerable challenges を提示し、現在の手法で音楽関連の入力を正しく解釈できる能力を効果的に評価する方法は明らかではありません。この問題に動機づけられて、音声に焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークであるMuChoMusicを紹介します。MuChoMusicは、2つの公開データセットから収集された644の音楽トラックに関して、すべて人間のアノテーターによって検証された1,187の選択肢問題で構成され、幅広いジャンルをカバーしています。このベンチマークの質問は、基礎的な音楽概念とそれらの文化的および機能的文脈との関係をカバーするいくつかの次元にわたる知識と推論能力を評価するように作成されています。ベンチマークによって提供される全体的な分析を通じて、5つのオープンソースモデルを評価し、言語モダリティへの過度な依存など、いくつかの落とし穴を特定し、より良いマルチモーダル統合の必要性を示しています。データとコードはオープンソースです。
Weck et al. (Fri,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: