大規模多モダリティモデルの多くの推論技術は、推論を単語の列として表現するChain-of-Thought (CoT) プロンプトなどの言語モデルアプローチに適応しています。テキストには効果的ですが、これらの手法は多モダリティコンテキストには最適ではなく、音声、視覚、テキスト情報を動的に整合させるのに苦労しています。代替のパラダイムを探るために、連続思考の多モダリティチェーン (MCOUT) を提案します。MCOUTは自然言語ではなく、共同潜在空間で直接推論を可能にします。MCOUTでは、推論状態は連続的な隠れベクトルとして表現され、視覚的およびテキスト的な埋め込みと反復的に洗練され、整合されます。これは人間の反射的認知に触発されています。MCOUT-BaseとMCOUT-Multiという2つのバリアントを開発しました。MCOUT-Baseは言語モデルの最後の隠れ状態を反復推論のための連続的思考として再利用し、MCOUT-Multiは視覚的およびテキスト的特徴間のクロスモーダル整合を強化するために多モーダル潜在注意を統合します。MMMU、ScienceQA、MMStarなどのベンチマークにおける実験は、MCOUTが常に多モダリティ推論を改善し、強力なベースラインに対して最大8.23%の精度向上を達成し、複数選択およびオープンエンドのタスクでBLEUスコアが最大8.27%向上することを示しています。これらの結果は、LMMを言語に束縛されたCoTを超えて進化させる有望な方向性として、潜在的な連続推論を浮き彫りにし、人間のような反射的な多モダリティ推論のためのスケーラブルなフレームワークを提供します。コードは https://github.com/Hanhpt23/OmniMod で入手可能です。
Pham et al. (Mon,) はこの質問を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: