Key points are not available for this paper at this time.
概要 大規模言語モデル(LLMs)は、言語の意味を世界に結びつけることに失敗している、すなわち「シンボル基盤問題」を解決できていないと批判されてきた。マルチモーダル大規模言語モデル(MLLMs)は、言語表現と他のモダリティの処理を組み合わせることで、この課題への潜在的な解決策を提供する。しかし、MLLMsがどのように、またどの程度に異なるモダリティを統合しているのか、そしてその統合方法が人間における基盤を支えるメカニズムと同様かどうかは、まだ多くが未知である。人間では、言語の意味は「身体化シミュレーション」、すなわち記述された経験を反映する感覚運動および情動表象の活性化を通じて基盤付けられると仮説されている。4つの事前登録研究を通じて、もともと人間の理解者における身体化シミュレーションを調査するために開発された実験手法を適応し、MLLMsが事象の記述に暗示されているが明示されていない感覚運動的特徴に対して感度を持つかどうかを問う。実験1では、一部の特徴(色や形)には感度があるが、他の特徴(大きさ、向き、体積)にはないことを発見した。実験2では、MLLMが感度を欠く理由となる可能性のあるボトルネックを特定した。実験3では、暗示された感覚運動的特徴に感度は示すものの、同じ課題における人間の行動を完全に説明できないことを明らかにした。最後に実験4では、異なるMLLMアーキテクチャの心理測定的予測力を比較し、単一ストリームアーキテクチャであるViLTが、はるかに少ないデータ量で訓練されているにもかかわらず、二重エンコーダアーキテクチャのCLIPよりもある感覚運動特徴(形状)に対する人間の反応をよりよく予測することを見出した。これらの結果は、現在のMLLMが言語と他のモダリティを統合する能力の強みと限界を明らかにし、人間の言語理解の基盤となる可能性のあるメカニズムにも光を当てている。
Jonesら(火曜)はこの質問を研究した。