La génération automatisée de rapports de pathologie diagnostique directement à partir d'images de diapositives entières (WSI) est une direction émergente en pathologie computationnelle. Traduire des motifs tissulaires haute résolution en texte cliniquement cohérent reste difficile en raison de la grande variabilité morphologique et de la structure complexe des récits pathologiques. Nous introduisons MPath, un cadre multimodal léger qui conditionne un modèle de langage biomédical préentraîné (BioBART) sur des embeddings visuels dérivés des WSI à travers un mécanisme de sollicitation de préfixe visuel appris. Au lieu d'un préentraînement vision-langage de bout en bout, MPath utilise les caractéristiques de modèle fondamental des WSI (CONCH + Titan) et les injecte dans BioBART via un module de projection compact, gardant l'architecture linguistique figée pour la stabilité et l'efficacité des données. MPath a été développé et évalué sur le jeu de données RED 2025 Grand Challenge et a été classé 4ème dans la phase de test 2, malgré des opportunités de soumission limitées. Les résultats mettent en évidence le potentiel de la condition multimodale basée sur des invites comme une stratégie évolutive et interprétable pour la génération de rapports de pathologie.
Wahab et al. (Mercredi) ont étudié cette question.