What type of study is this?

This is a Experimental Study study.

September 16, 2025Open Access

Labels pseudo-améliorées pour une segmentation sémantique faiblement supervisée de bout en bout avec des modèles de base

Key Points

La méthode d'étiquetage pseudo-amélioré guidée par classe proposée améliore considérablement la qualité des pseudo-étiquettes, renforçant la précision de la segmentation.
En utilisant l'entraînement préliminaire langage-image contrastif et le modèle segment anything, l'approche affine efficacement les cartes de localisation.
Les connexions de saut des multiples blocs de CLIP renforcent les représentations de caractéristiques, conduisant à de meilleurs résultats en segmentation sémantique.
Les expériences montrent que cette méthode dépasse à la fois les approches de bout en bout à la pointe de la technologie et plusieurs concurrents multi-étapes.

Abstract

La segmentation sémantique faiblement supervisée (WSSS) vise à apprendre des concepts sémantiques au niveau des pixels à partir d'étiquettes de classe au niveau de l'image. En raison de sa simplicité et de son efficacité en matière d'entraînement, les approches WSSS de bout en bout ont attiré une attention significative de la part de la communauté de recherche. Cependant, la nature grossière des régions de pseudo-étiquettes reste l'un des principaux goulots d'étranglement limitant la performance de telles méthodes. Pour remédier à ce problème, nous proposons l'étiquetage pseudo-amélioré guidé par classe (CEP), une méthode conçue pour générer des pseudo-étiquettes de haute qualité pour les frameworks WSSS de bout en bout. Notre approche utilise des modèles de base préentraînés, tels que l'entraînement préliminaire langage-image contrastif (CLIP) et le modèle segment anything (SAM), pour améliorer la qualité des pseudo-étiquettes. Plus précisément, suite au pipeline de génération de pseudo-étiquettes, nous introduisons deux composants clés : un module Skip-CAM et un module de raffinement des pseudo-étiquettes. Le module Skip-CAM enrichit les représentations de caractéristiques en introduisant des connexions de saut à partir de plusieurs blocs de CLIP, améliorant ainsi la qualité des cartes de localisation. Le module de raffinement utilise ensuite SAM pour affiner et corriger les pseudo-étiquettes en fonction des régions spécifiques à la classe initiales dérivées des cartes de localisation. Les résultats expérimentaux démontrent que notre méthode dépasse les approches de bout en bout à la pointe de la technologie ainsi que de nombreux concurrents multi-étapes.

Labels pseudo-améliorées pour une segmentation sémantique faiblement supervisée de bout en bout avec des modèles de base

Key Points

Abstract

Cite This Study

Also Consider

Also Consider