Les modèles vision-langage (VLMs) ont réalisé des progrès impressionnants dans le raisonnement sur images naturelles, mais leur potentiel en imagerie médicale reste peu exploré. Les tâches vision-langage médicales exigent une compréhension précise et des réponses cliniquement cohérentes, difficiles à obtenir en raison de la complexité des données médicales et de la rareté des annotations expertes de haute qualité. Ces défis limitent l'efficacité du fine-tuning supervisé conventionnel (SFT) et des stratégies Chain-of-Thought (CoT), qui fonctionnent bien dans des domaines généraux. Pour relever ces défis, nous proposons Med-R1, un VLM amélioré par apprentissage par renforcement (RL) conçu pour améliorer la généralisation et la fiabilité dans le raisonnement médical. Med-R1 adopte l’optimisation de politique relative de groupe (GRPO) pour encourager l’apprentissage guidé par récompense au-delà des annotations statiques. Nous évaluons de manière exhaustive Med-R1 sur huit modalités distinctes d’imagerie médicale. Med-R1 obtient une amélioration de 29,94 % de la précision moyenne par rapport à son modèle de base Qwen2-VL-2B, et dépasse même Qwen2-VL-72B, un modèle avec 36 fois plus de paramètres. Pour évaluer la généralisation inter-tâches, nous testons également Med-R1 sur cinq types de questions. Med-R1 surpasse Qwen2-VL-2B de 32,06 % en généralisation par type de question, dépassant aussi Qwen2-VL-72B. Nous explorons en plus le processus de raisonnement dans Med-R1, composante essentielle de Deepseek-R1. Nos résultats montrent que l’omission des raisonnements intermédiaires (No-Thinking Med-R1) améliore non seulement la généralisation inter-domaines avec moins d’entraînement, mais remet aussi en cause l’idée commune selon laquelle plus de raisonnement est toujours bénéfique. Néanmoins, la variante Think-After Med-R1 améliore encore la performance tout en conservant l’interprétabilité. Ces observations suggèrent qu’en VQA médicale, la simple présence de raisonnement explicite ne garantit pas de meilleures performances. Celles-ci dépendent plutôt de la qualité du raisonnement et du moment où il est généré.
Lai et al. (Jeudi,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: