Key points are not available for this paper at this time.
La médecine, par nature, est un domaine multifacette qui nécessite la synthèse d'informations à travers diverses modalités. Les modèles génératifs de vision-langage (VLM) médicaux font un premier pas dans cette direction et promettent de nombreuses applications cliniques passionnantes. Cependant, les modèles existants doivent généralement être adaptés sur de grands ensembles de données en aval, ce qui pose une limitation importante car, dans de nombreuses applications médicales, les données sont rares, nécessitant des modèles capables d'apprendre à partir de quelques exemples en temps réel. Ici, nous proposons Med-Flamingo, un apprenant multimodal à faible échantillon adapté au domaine médical. Basé sur OpenFlamingo-9B, nous poursuivons le pré-entraînement sur des données médicales d'images et de textes appariées et entrelacées provenant de publications et de manuels. Med-Flamingo déverrouille des capacités de question-réponse visuelle générative médicale (VQA) à faible échantillon, que nous évaluons sur plusieurs ensembles de données, y compris un nouvel ensemble de données VQA ouvert et exigeant de problèmes visuels de style USMLE. De plus, nous réalisons la première évaluation humaine pour la VQA médicale générative où des médecins examinent les problèmes et les générations aveugles dans une application interactive. Med-Flamingo améliore les performances en VQA médicale générative de jusqu'à 20\% sur l'évaluation des cliniciens et permet pour la première fois des adaptations multimodales médicales à faible échantillon, telles que la génération de justifications. Nous mettons notre modèle, notre code et notre application d'évaluation à disposition sur https://github.com/snap-stanford/med-flamingo.
Moor et al. (Jeu,) ont étudié cette question.