Key points are not available for this paper at this time.
本論文では、動画ベースのマルチモーダル大規模言語モデル(LLMs)の言語グラウンディングおよび物理理解能力を評価するための新しいベンチマークGRASPを提案します。この評価は、Unityシミュレーションを活用した2段階のアプローチによって行われます。最初の段階では、モデルが単純なテキスト記述と視覚情報を関連付ける能力を評価することで言語グラウンディングをテストします。第2の段階では、物体の永続性や連続性などの「直感的物理学」原則に対するモデルの理解を評価します。ベンチマークを発表するだけでなく、これを使用していくつかの最先端のマルチモーダルLLMを評価しました。我々の評価は、これらのモデルの言語グラウンディングおよび直感的物理能力における重大な欠陥を明らかにします。彼らは色や形の特にいくつかのグラウンディング能力を示しますが、これらの能力はプロンプト戦略に大きく依存しています。同時に、すべてのモデルは直感的物理学テストで50%のチャンスレベル以下またはそれに達するパフォーマンスを示し、人間の被験者は平均80%の正答率を示します。これらの限界は、将来のモデルがこれらの能力を発展させる進捗を監視するためにGRASPのようなベンチマークを使用する重要性を強調しています。
Jassim et al.(金曜日) はこの問題を研究しました。