La segmentation sémantique faiblement supervisée (WSSS) vise à apprendre des concepts sémantiques au niveau des pixels à partir d'étiquettes de classe au niveau de l'image. En raison de sa simplicité et de son efficacité en matière d'entraînement, les approches WSSS de bout en bout ont attiré une attention significative de la part de la communauté de recherche. Cependant, la nature grossière des régions de pseudo-étiquettes reste l'un des principaux goulots d'étranglement limitant la performance de telles méthodes. Pour remédier à ce problème, nous proposons l'étiquetage pseudo-amélioré guidé par classe (CEP), une méthode conçue pour générer des pseudo-étiquettes de haute qualité pour les frameworks WSSS de bout en bout. Notre approche utilise des modèles de base préentraînés, tels que l'entraînement préliminaire langage-image contrastif (CLIP) et le modèle segment anything (SAM), pour améliorer la qualité des pseudo-étiquettes. Plus précisément, suite au pipeline de génération de pseudo-étiquettes, nous introduisons deux composants clés : un module Skip-CAM et un module de raffinement des pseudo-étiquettes. Le module Skip-CAM enrichit les représentations de caractéristiques en introduisant des connexions de saut à partir de plusieurs blocs de CLIP, améliorant ainsi la qualité des cartes de localisation. Le module de raffinement utilise ensuite SAM pour affiner et corriger les pseudo-étiquettes en fonction des régions spécifiques à la classe initiales dérivées des cartes de localisation. Les résultats expérimentaux démontrent que notre méthode dépasse les approches de bout en bout à la pointe de la technologie ainsi que de nombreux concurrents multi-étapes.
Zhou et al. (ven,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: