What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 20, 2025Open Access

Les grands modèles vision-langage sont-ils de bons joueurs de jeu ?

Key Points

L'évaluation basée sur le jeu évalue efficacement les compétences cognitives et les capacités de raisonnement des LVLMs dans des tâches structurées.
Des expériences approfondies mettent en lumière les limitations des LVLMs, notamment les difficultés avec les sorties longues et structurées ainsi que la perception détaillée.
Les benchmarks actuels n'évaluent pas adéquatement la perception visuelle détaillée ni le raisonnement multi-tours chez les LVLMs.
Le cadre proposé intègre des tâches comme la perception, la réponse aux questions, et le suivi des règles pour une évaluation complète.

Abstract

Les grands modèles vision-langage (LVLMs) ont démontré des capacités remarquables dans la compréhension et le raisonnement à la fois sur des informations visuelles et textuelles. Cependant, les méthodes d'évaluation existantes pour les LVLMs, principalement basées sur des benchmarks comme Visual Question Answering et la description d'images, échouent souvent à capturer toute l'étendue des capacités des LVLMs. Ces benchmarks sont limités par des problèmes tels que l'évaluation inadéquate de la perception visuelle détaillée, la contamination des données, et un manque de focalisation sur le raisonnement multi-tours. Pour relever ces défis, nous proposons un cadre d'évaluation basé sur des jeux, conçu pour fournir une évaluation complète des compétences cognitives et de raisonnement des LVLMs dans des environnements structurés. Ce cadre utilise un ensemble de jeux pour évaluer les LVLMs sur quatre tâches principales : Perception, Réponse aux Questions, Suivi des Règles, et Jeu de bout en bout, chaque tâche cible étant conçue pour évaluer des aptitudes spécifiques, notamment la perception visuelle, le raisonnement, la prise de décision, etc. Sur la base de ce cadre, nous menons des expériences approfondies qui explorent les limites actuelles des LVLMs, telles que la gestion des sorties longues et structurées ainsi que la perception d'éléments détaillés et denses. Le code et les données sont disponibles publiquement à https: //github. com/xinke-wang/LVLM-Playground.

Les grands modèles vision-langage sont-ils de bons joueurs de jeu ?

Key Points

Abstract

Cite This Study

Also Consider

Also Consider