June 17, 2024Open Access

GeoGPT4V: 幾何学的画像生成を伴う幾何多モーダル大規模言語モデルに向けて

Key Points

Key points are not available for this paper at this time.

Abstract

大規模言語モデルは数学問題解決において広く採用されています。しかし、より良い理解のために視覚的補助を必要とする幾何学の問題では、現在の最も高度な多モーダルモデルであっても、画像情報を効果的に使用するという課題に直面しています。高品質なデータは、多モーダルモデルの幾何学的能力を向上させるために不可欠ですが、既存のオープンソースデータセットや関連する取り組みは、直接モデル学習には難しすぎるか、テキストと画像の間の整合性が欠けています。この問題を克服するために、テキストと画像が整合した比較的基本的な幾何問題を生成するためにGPT-4とGPT-4Vを活用する新しいパイプラインを紹介します。4.9Kの幾何問題のデータセットを作成し、19Kのオープンソースデータと組み合わせてGeoGPT4Vデータセットを形成しました。実験結果は、GeoGPT4VデータセットがMathVistaおよびMathVisionベンチマークでさまざまなモデルの幾何学的パフォーマンスを大幅に向上させることを示しています。コードはhttps://github.com/Lanyu0303/GeoGPT4VProjectで入手可能です。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper