What question did this study set out to answer?

L'objectif est d'améliorer la compréhension spatiale fine dans les modèles vision-langage pour l'analyse des images médicales.

May 11, 2026Open Access

PatchCLIP permet un entraînement conjoint spécifique à la région des dossiers de santé et des images avec une perte d'encastrement de patch

Key Points

L'objectif est d'améliorer la compréhension spatiale fine dans les modèles vision-langage pour l'analyse des images médicales.
Introduit le cadre Patch-CLIP utilisant une perte contraste pour aligner les encastrements d'image au niveau des patches et les encastrements de texte.
Utilisé deux ensembles de données de radiographies thoraciques pour évaluer la performance du modèle à travers plusieurs tâches de détection d'anomalies.
A atteint des performances de pointe en se concentrant sur les caractéristiques locales au niveau des patches plutôt que sur de simples représentations globales.
Patch-CLIP a surpassé les modèles traditionnels dans huit tâches de détection d'anomalies avec des métriques de pointe.
Réduit les faux positifs tout en maintenant une sensibilité comparable aux méthodes standard basées sur la saillance.
A fourni une localisation améliorée et une interprétabilité des résultats clés dans les images médicales.

Abstract

Résumé Les modèles Vision-Langage (VL) tels que le préentraînement Contrastif Langue-Image (CLIP) ont montré des capacités remarquables de classification à zéro coup en apprenant conjointement à partir de grands ensembles de données image-texte à l'aide d'apprentissage auto-supervisé multimodal (SSL). Cependant, bien que ces modèles capturent de fortes sémantiques globales, ils peinent souvent à comprendre les détails spatiaux fins, limitant ainsi leur efficacité dans des tâches en aval comme la détection d'objets et la localisation d'anomalies médicales 2. Pour remédier à cette limitation, nous proposons Patch-CLIP, un nouveau cadre VL qui introduit une perte contrastive alignant les encastrements d'image au niveau des patches avec les encastrements de texte. Contrairement aux approches VL conventionnelles qui s'appuient uniquement sur des représentations d'image globales, notre méthode utilise des caractéristiques locales au niveau des patches pour encoder le contexte spatial, permettant un apprentissage efficace des indices de localisation. Appliqué à deux ensembles de données de radiographies thoraciques (CXR), Patch-CLIP atteint des performances de pointe (SOTA) dans huit tâches de détection d'anomalies. De plus, les cartes de prédiction de patches résultantes réduisent considérablement les faux positifs tout en maintenant des niveaux de sensibilité comparables aux méthodes standard basées sur la saillance, offrant une localisation plus précise et interprétable des résultats clés. Le code est disponible à l'adresse https://github.com/Siemens-Healthineers/patch-clip

Demander à l'IA

Bookmark

View Full Paper