Key points are not available for this paper at this time.
大規模言語モデルは数学問題解決において広く採用されています。しかし、より良い理解のために視覚的補助を必要とする幾何学の問題では、現在の最も高度な多モーダルモデルであっても、画像情報を効果的に使用するという課題に直面しています。高品質なデータは、多モーダルモデルの幾何学的能力を向上させるために不可欠ですが、既存のオープンソースデータセットや関連する取り組みは、直接モデル学習には難しすぎるか、テキストと画像の間の整合性が欠けています。この問題を克服するために、テキストと画像が整合した比較的基本的な幾何問題を生成するためにGPT-4とGPT-4Vを活用する新しいパイプラインを紹介します。4.9Kの幾何問題のデータセットを作成し、19Kのオープンソースデータと組み合わせてGeoGPT4Vデータセットを形成しました。実験結果は、GeoGPT4VデータセットがMathVistaおよびMathVisionベンチマークでさまざまなモデルの幾何学的パフォーマンスを大幅に向上させることを示しています。コードはhttps://github.com/Lanyu0303/GeoGPT4VProjectで入手可能です。
Cai et al. (Mon,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: