Résumé Les modèles Vision-Langage (VL) tels que le préentraînement Contrastif Langue-Image (CLIP) ont montré des capacités remarquables de classification à zéro coup en apprenant conjointement à partir de grands ensembles de données image-texte à l'aide d'apprentissage auto-supervisé multimodal (SSL). Cependant, bien que ces modèles capturent de fortes sémantiques globales, ils peinent souvent à comprendre les détails spatiaux fins, limitant ainsi leur efficacité dans des tâches en aval comme la détection d'objets et la localisation d'anomalies médicales 2. Pour remédier à cette limitation, nous proposons Patch-CLIP, un nouveau cadre VL qui introduit une perte contrastive alignant les encastrements d'image au niveau des patches avec les encastrements de texte. Contrairement aux approches VL conventionnelles qui s'appuient uniquement sur des représentations d'image globales, notre méthode utilise des caractéristiques locales au niveau des patches pour encoder le contexte spatial, permettant un apprentissage efficace des indices de localisation. Appliqué à deux ensembles de données de radiographies thoraciques (CXR), Patch-CLIP atteint des performances de pointe (SOTA) dans huit tâches de détection d'anomalies. De plus, les cartes de prédiction de patches résultantes réduisent considérablement les faux positifs tout en maintenant des niveaux de sensibilité comparables aux méthodes standard basées sur la saillance, offrant une localisation plus précise et interprétable des résultats clés. Le code est disponible à l'adresse https://github.com/Siemens-Healthineers/patch-clip
Bhat et al. (Sat,) ont étudié cette question.