Améliorer les capacités de raisonnement multimodal des Modèles de Langage Multimodaux de Grande Taille (MLLMs) est une tâche difficile qui attire une attention croissante dans la communauté. Récemment, plusieurs études ont appliqué l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) au domaine multimodal afin d'améliorer les capacités de raisonnement des MLLMs. Cependant, ces travaux négligent largement l'amélioration des capacités de perception multimodale des MLLMs, qui constituent un préalable fondamental et un élément de base du raisonnement multimodal complexe. Grâce au test de McNemar, nous constatons que la méthode RLVR existante ne parvient pas à améliorer efficacement les capacités de perception multimodale des MLLMs, limitant ainsi leur progression dans le raisonnement multimodal. Pour pallier cette limitation, nous proposons Perception-R1, qui introduit une nouvelle récompense de perception visuelle encourageant explicitement les MLLMs à percevoir correctement le contenu visuel, ce qui peut efficacement stimuler à la fois leurs capacités de perception multimodale et de raisonnement. Plus précisément, nous collectons d'abord des annotations textuelles visuelles issues des trajectoires CoT de problèmes multimodaux, qui serviront de références visuelles pour l'attribution des récompenses. Lors de l'entraînement RLVR, nous utilisons un LLM évaluateur pour juger la cohérence entre les annotations visuelles et les réponses générées par le MLLM, et attribuons la récompense de perception visuelle sur la base de ces jugements de cohérence. De nombreuses expériences sur plusieurs benchmarks de raisonnement multimodal démontrent l'efficacité de notre Perception-R1, qui atteint des performances de pointe sur la plupart des benchmarks en utilisant seulement 1 442 données d'entraînement.
Xiao et al. (Sun,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: