Key points are not available for this paper at this time.
本研究では、MM-MATHデータセットを提示します。この新しいベンチマークは、GPT-4、GPT-4V、Claudeを含む、先進的な大規模言語モデルおよびマルチモーダルモデルのパフォーマンスを厳密に評価するために開発されました。このデータセットは、9年生の数学に典型的な複雑性と要件を反映することを目的として、対応する画像とペアになった5,929の精緻に作成された幾何問題で構成されています。MM-MATHの背後にある動機は、マルチモーダル技術の興隆と重要な進展にあり、そのため、結果分析から推論や手続きの正確性を包括するより全体的な評価へのパラダイムシフトが必要です。さまざまなベンチマークパフォーマンスでの印象的な向上にもかかわらず、私たちの分析は、これらのモデルが画像から幾何情報を正確に解析し解釈する能力において、60%以上の観察されたエラーを占める持続的かつ顕著な欠陥があることを明らかにしました。最終結果と基礎となる問題解決プロセスの両方を検討する二重焦点評価アプローチを展開することで、現在のマルチモーダルモデルの能力と人間レベルの熟練度との間に顕著な乖離があることを発見しました。MM-MATHの導入は、この分野への三者的な貢献を表しています。それは、幾何問題解決能力を評価するための包括的で困難なベンチマークとして機能するだけでなく、現在のモデルが示すテキストおよび視覚的理解における重要なギャップを明らかにします。この取り組みを通じて、これらのギャップを埋めることを目指すさらなる研究開発を促進し、マルチモーダルモデルの能力を新たな高みに引き上げることを望んでいます。
Sun et al. (Sun) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: