Key points are not available for this paper at this time.
マルチモーダル大型言語モデル(MLLM)の人気が高まる中、これらのモデルの評価に特化した研究が大幅に増加しています。しかし、現在の評価研究は主に、単一モード(ビジョンのみ)の文脈内でモデルが理解し推論する能力に焦点を当てており、視覚とテキストの双方の文脈を統合した複雑なマルチモーダル推論タスクにおける重要なパフォーマンス評価を見落としています。さらに、複数のモダリティにまたがる推論を要求するタスクは、より大きな課題を提起し、マルチモーダルな文脈に対する深い理解を必要とします。本論文では、視覚-テキスト文脈を持つさまざまなモデルと指示のパフォーマンスを広範囲に評価するために、多様なメトリックを統合した包括的な評価フレームワーク「MM-InstructEval」を導入します。MM-InstructEvalは、複雑なマルチモーダル推論タスクにおけるMLLMのパフォーマンスに関する研究を強化し、MLLMのより徹底的かつ全体的なゼロショット評価を促進します。最初に「最高パフォーマンス」メトリックを使用して、さまざまなデータセットにわたる各モデルの上限パフォーマンスを決定します。「平均相対利得」メトリックは、異なるモデルと指示の全体的なパフォーマンスの分析を提供し、「安定性」メトリックは、その変動に対する感受性を評価します。歴史的には、研究はモデルの独立した評価や指示のみの評価に集中しており、モデルと指示の相互作用を見落としていました。このギャップに対処するために、モデルと指示の適応度を定量化するために設計された「適応性」メトリックを導入します。評価は、16のマルチモーダルデータセットにわたる31モデル(うち23がMLLM)に対して行い、6つのタスクをカバーし、10の異なる指示を使用しています。この広範な分析により、新たな洞察を得ることができます。
Yang et al. (Sun) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: