Les grands modèles vision-langage (LVLMs) ont démontré des capacités remarquables dans la compréhension et le raisonnement à la fois sur des informations visuelles et textuelles. Cependant, les méthodes d'évaluation existantes pour les LVLMs, principalement basées sur des benchmarks comme Visual Question Answering et la description d'images, échouent souvent à capturer toute l'étendue des capacités des LVLMs. Ces benchmarks sont limités par des problèmes tels que l'évaluation inadéquate de la perception visuelle détaillée, la contamination des données, et un manque de focalisation sur le raisonnement multi-tours. Pour relever ces défis, nous proposons un cadre d'évaluation basé sur des jeux, conçu pour fournir une évaluation complète des compétences cognitives et de raisonnement des LVLMs dans des environnements structurés. Ce cadre utilise un ensemble de jeux pour évaluer les LVLMs sur quatre tâches principales : Perception, Réponse aux Questions, Suivi des Règles, et Jeu de bout en bout, chaque tâche cible étant conçue pour évaluer des aptitudes spécifiques, notamment la perception visuelle, le raisonnement, la prise de décision, etc. Sur la base de ce cadre, nous menons des expériences approfondies qui explorent les limites actuelles des LVLMs, telles que la gestion des sorties longues et structurées ainsi que la perception d'éléments détaillés et denses. Le code et les données sont disponibles publiquement à https: //github. com/xinke-wang/LVLM-Playground.
Wang et al. (Tue,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: