Key points are not available for this paper at this time.
Les avancées récentes dans la Chaîne de Pensée (CoT) et les travaux connexes basés sur le raisonnement ont considérablement amélioré la performance des Modèles de Langage de Grande Taille (LLMs) dans des tâches de raisonnement complexes. Avec l'évolution des Modèles de Langage Multimodaux de Grande Taille (MLLMs), améliorer leur capacité à résoudre des problèmes de raisonnement multimodal complexes est une frontière cruciale. Cependant, l'incorporation de raisonnements multimodaux dans la CoT n'a pas encore été pleinement investie. Nous proposons la méthode d'incitation à l'Image-de-Pensée (IoT), qui aide les MLLMs à extraire des raisonnements visuels étape par étape. Plus précisément, l'incitation IoT peut automatiquement concevoir des opérations d'extraction d'informations visuelles critiques basées sur les images et les questions d'entrée. Chaque étape de raffinement des informations visuelles identifie des raisonnements visuels spécifiques qui soutiennent les réponses aux questions de raisonnement visuel complexe. Au-delà de la CoT textuelle, l'IoT utilise simultanément des raisonnements visuels et textuels pour aider les MLLMs à comprendre des informations multimodales complexes. L'incitation IoT a amélioré la performance du raisonnement visuel en zéro-shot dans diverses tâches de compréhension visuelle dans différents MLLMs. De plus, les explications des caractéristiques visuelles étape par étape générées par l'incitation IoT éclaircissent le processus de raisonnement visuel, aidant à analyser les processus cognitifs de grands modèles multimodaux.
Zhou et al. (Mercredi,) ont étudié cette question.