March 13, 2024Open Access

Sprachgesteuertes visuelles Konsens für Zero-Shot semantische Segmentierung

Key Points

Key points are not available for this paper at this time.

Abstract

Das vortrainierte Vision-Sprach-Modell, verkörpert durch CLIP, verbessert die Zero-Shot semantische Segmentierung, indem es visuelle Merkmale mit Klasseneinbettungen durch einen Transformator-Decoder ausrichtet, um semantische Masken zu erzeugen. Trotz seiner Effektivität stoßen die gängigen Methoden in diesem Paradigma auf Herausforderungen, einschließlich Überanpassung bei bekannten Klassen und kleiner Fragmentierung in Masken. Um diese Probleme zu mildern, schlagen wir einen Ansatz des sprachgesteuerten visuellen Konsenses (LDVC) vor, der die verbesserte Ausrichtung von semantischen und visuellen Informationen fördert. Konkret nutzen wir Klasseneinbettungen als Anker aufgrund ihrer diskreten und abstrakten Natur, die die visuellen Merkmale in Richtung der Klasseneinbettungen steuern. Darüber hinaus führen wir zur Umgehung von störenden Ausrichtungen vom visuellen Teil aufgrund seiner redundanten Natur die Routenaufmerksamkeit in die Selbstaufmerksamkeit ein, um visuelles Konsens zu finden, und verbessern so die semantische Konsistenz innerhalb desselben Objekts. Ausgestattet mit einer Vision-Sprach-Aufforderungsstrategie steigert unser Ansatz signifikant die Verallgemeinerungsfähigkeit von Segmentierungsmodellen für unbekannte Klassen. Experimentelle Ergebnisse unterstreichen die Effektivität unseres Ansatzes, wobei ein mIoU-Zuwachs von 4,5 im PASCAL VOC 2012 und 3,6 im COCO-Stuff 164k für unbekannte Klassen im Vergleich zu den modernsten Methoden gezeigt wird.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper