What question did this study set out to answer?

L’objectif est d’améliorer la généralisation et la fiabilité du raisonnement médical grâce à une nouvelle approche d’apprentissage par renforcement.

February 6, 2026

Med-R1 : Apprentissage par renforcement pour un raisonnement médical généralisable dans les modèles vision-langage

Key Points

L’objectif est d’améliorer la généralisation et la fiabilité du raisonnement médical grâce à une nouvelle approche d’apprentissage par renforcement.
Développement de Med-R1, un modèle vision-langage amélioré par apprentissage par renforcement.
Utilisation de l’optimisation de politique relative de groupe pour un apprentissage guidé par récompense.
Évaluation sur huit modalités d’imagerie médicale pour une appréciation complète.
Évaluation de la généralisation inter-tâches par tests sur cinq types de questions.
Comparaison des performances de Med-R1 avec des modèles de référence possédant différents nombres de paramètres.
Med-R1 obtient une amélioration de 29,94 % de la précision moyenne par rapport à la base Qwen2-VL-2B.
Surpasse le modèle plus grand Qwen2-VL-72B dans plusieurs tâches.
Démontre une amélioration de 32,06 % en généralisation par type de question par rapport à Qwen2-VL-2B.
Les résultats indiquent que la qualité et la position du raisonnement influencent la performance, remettant en question les hypothèses existantes.

Abstract

Les modèles vision-langage (VLMs) ont réalisé des progrès impressionnants dans le raisonnement sur images naturelles, mais leur potentiel en imagerie médicale reste peu exploré. Les tâches vision-langage médicales exigent une compréhension précise et des réponses cliniquement cohérentes, difficiles à obtenir en raison de la complexité des données médicales et de la rareté des annotations expertes de haute qualité. Ces défis limitent l'efficacité du fine-tuning supervisé conventionnel (SFT) et des stratégies Chain-of-Thought (CoT), qui fonctionnent bien dans des domaines généraux. Pour relever ces défis, nous proposons Med-R1, un VLM amélioré par apprentissage par renforcement (RL) conçu pour améliorer la généralisation et la fiabilité dans le raisonnement médical. Med-R1 adopte l’optimisation de politique relative de groupe (GRPO) pour encourager l’apprentissage guidé par récompense au-delà des annotations statiques. Nous évaluons de manière exhaustive Med-R1 sur huit modalités distinctes d’imagerie médicale. Med-R1 obtient une amélioration de 29,94 % de la précision moyenne par rapport à son modèle de base Qwen2-VL-2B, et dépasse même Qwen2-VL-72B, un modèle avec 36 fois plus de paramètres. Pour évaluer la généralisation inter-tâches, nous testons également Med-R1 sur cinq types de questions. Med-R1 surpasse Qwen2-VL-2B de 32,06 % en généralisation par type de question, dépassant aussi Qwen2-VL-72B. Nous explorons en plus le processus de raisonnement dans Med-R1, composante essentielle de Deepseek-R1. Nos résultats montrent que l’omission des raisonnements intermédiaires (No-Thinking Med-R1) améliore non seulement la généralisation inter-domaines avec moins d’entraînement, mais remet aussi en cause l’idée commune selon laquelle plus de raisonnement est toujours bénéfique. Néanmoins, la variante Think-After Med-R1 améliore encore la performance tout en conservant l’interprétabilité. Ces observations suggèrent qu’en VQA médicale, la simple présence de raisonnement explicite ne garantit pas de meilleures performances. Celles-ci dépendent plutôt de la qualité du raisonnement et du moment où il est généré.

Demander à l'IA

Bookmark