September 28, 2025Open Access

視覚と言語モデルにおける潜在空間推論のための連続思考の多モダリティチェーン

Key Points

MCOUTは多モダリティコンテキストにおける推論パフォーマンスを向上させ、既存の手法に比べて精度の向上を提供します。
結果は、MMMUやScienceQAなどのベンチマークで強力なベースラインに対して最大8.23%の精度向上を示しています。
評価ではMCOUTの2つのバリアントを利用し、推論のための視覚的およびテキスト的データの効果的な統合を示しました。
このアプローチは、より高度な多モダリティモデルへの道を開く可能性があり、効率的な潜在空間推論の必要性を強調しています。

Abstract

大規模多モダリティモデルの多くの推論技術は、推論を単語の列として表現するChain-of-Thought (CoT) プロンプトなどの言語モデルアプローチに適応しています。テキストには効果的ですが、これらの手法は多モダリティコンテキストには最適ではなく、音声、視覚、テキスト情報を動的に整合させるのに苦労しています。代替のパラダイムを探るために、連続思考の多モダリティチェーン (MCOUT) を提案します。MCOUTは自然言語ではなく、共同潜在空間で直接推論を可能にします。MCOUTでは、推論状態は連続的な隠れベクトルとして表現され、視覚的およびテキスト的な埋め込みと反復的に洗練され、整合されます。これは人間の反射的認知に触発されています。MCOUT-BaseとMCOUT-Multiという2つのバリアントを開発しました。MCOUT-Baseは言語モデルの最後の隠れ状態を反復推論のための連続的思考として再利用し、MCOUT-Multiは視覚的およびテキスト的特徴間のクロスモーダル整合を強化するために多モーダル潜在注意を統合します。MMMU、ScienceQA、MMStarなどのベンチマークにおける実験は、MCOUTが常に多モダリティ推論を改善し、強力なベースラインに対して最大8.23%の精度向上を達成し、複数選択およびオープンエンドのタスクでBLEUスコアが最大8.27%向上することを示しています。これらの結果は、LMMを言語に束縛されたCoTを超えて進化させる有望な方向性として、潜在的な連続推論を浮き彫りにし、人間のような反射的な多モダリティ推論のためのスケーラブルなフレームワークを提供します。コードは https://github.com/Hanhpt23/OmniMod で入手可能です。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper