What type of study is this?

This is a Experimental Study study.

October 2, 2025Open Access

Perception-R1 : Avancement des capacités de raisonnement multimodal des MLLMs via une récompense de perception visuelle

Key Points

Perception-R1 améliore la perception multimodale et le raisonnement des MLLMs grâce à une nouvelle récompense de perception visuelle.
De nombreuses expériences révèlent que seulement 1 442 données d'entraînement suffisent pour atteindre des performances de pointe sur les benchmarks.
Les méthodes RLVR existantes traitent de manière inadéquate les défis de la perception multimodale, limitant les capacités de raisonnement des MLLMs.
Les récompenses de perception visuelle ont été attribuées après avoir évalué la cohérence entre les réponses générées et les annotations visuelles.

Abstract

Améliorer les capacités de raisonnement multimodal des Modèles de Langage Multimodaux de Grande Taille (MLLMs) est une tâche difficile qui attire une attention croissante dans la communauté. Récemment, plusieurs études ont appliqué l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) au domaine multimodal afin d'améliorer les capacités de raisonnement des MLLMs. Cependant, ces travaux négligent largement l'amélioration des capacités de perception multimodale des MLLMs, qui constituent un préalable fondamental et un élément de base du raisonnement multimodal complexe. Grâce au test de McNemar, nous constatons que la méthode RLVR existante ne parvient pas à améliorer efficacement les capacités de perception multimodale des MLLMs, limitant ainsi leur progression dans le raisonnement multimodal. Pour pallier cette limitation, nous proposons Perception-R1, qui introduit une nouvelle récompense de perception visuelle encourageant explicitement les MLLMs à percevoir correctement le contenu visuel, ce qui peut efficacement stimuler à la fois leurs capacités de perception multimodale et de raisonnement. Plus précisément, nous collectons d'abord des annotations textuelles visuelles issues des trajectoires CoT de problèmes multimodaux, qui serviront de références visuelles pour l'attribution des récompenses. Lors de l'entraînement RLVR, nous utilisons un LLM évaluateur pour juger la cohérence entre les annotations visuelles et les réponses générées par le MLLM, et attribuons la récompense de perception visuelle sur la base de ces jugements de cohérence. De nombreuses expériences sur plusieurs benchmarks de raisonnement multimodal démontrent l'efficacité de notre Perception-R1, qui atteint des performances de pointe sur la plupart des benchmarks en utilisant seulement 1 442 données d'entraînement.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper