Key points are not available for this paper at this time.
常識推論は根本的にマルチモーダルな知識に基づいています。しかし、既存の大規模言語モデル(LLMs)は主にテキストデータのみを使用して訓練されており、重要な視覚情報を取り入れる能力が制限されています。それに対して、視覚指向のタスクに優れた視覚言語モデルは、基本的な常識推論などの非視覚的タスクにはしばしば失敗します。この乖離は、強固な視覚理解を基盤となるテキストベースの言語推論と統合するという重要な課題を浮き彫りにしています。この目的のために、我々はLLMsの視覚的常識を強化することを目指した手法を紹介します。具体的には、我々の手法は入力テキストプロンプトに基づいて複数の画像を生成し、それらをモデルの意思決定プロセスに統合するために予測確率を混合します。マルチモーダルに基づく言語モデリングを促進するために、テキストのみで条件付けされた事前訓練されたLLMの出力と共に投影された視覚特徴を組み合わせるレイトフュージョン層を使用します。このレイトフュージョン層は、必要に応じてテキストのみ、または包括的な画像-テキスト知識に基づいて予測を可能にします。我々は、常識推論や読解力を含む伝統的なNLPタスクと共に、いくつかの視覚的常識推論タスクを使用してアプローチを評価します。我々の実験結果は、既存のベースラインに対して重要な優位性を示しています。最近の最先端のLLMs(例:Llama3)に適用した場合、視覚的常識だけでなく、伝統的なNLPベンチマークでも改善が見られます。コードとモデルは https://github.com/guyyariv/vLMIG で入手可能です。
Yariv et al. (Wed,) はこの問題を研究しました。