Key points are not available for this paper at this time.
Das vortrainierte Vision-Sprach-Modell, verkörpert durch CLIP, verbessert die Zero-Shot semantische Segmentierung, indem es visuelle Merkmale mit Klasseneinbettungen durch einen Transformator-Decoder ausrichtet, um semantische Masken zu erzeugen. Trotz seiner Effektivität stoßen die gängigen Methoden in diesem Paradigma auf Herausforderungen, einschließlich Überanpassung bei bekannten Klassen und kleiner Fragmentierung in Masken. Um diese Probleme zu mildern, schlagen wir einen Ansatz des sprachgesteuerten visuellen Konsenses (LDVC) vor, der die verbesserte Ausrichtung von semantischen und visuellen Informationen fördert. Konkret nutzen wir Klasseneinbettungen als Anker aufgrund ihrer diskreten und abstrakten Natur, die die visuellen Merkmale in Richtung der Klasseneinbettungen steuern. Darüber hinaus führen wir zur Umgehung von störenden Ausrichtungen vom visuellen Teil aufgrund seiner redundanten Natur die Routenaufmerksamkeit in die Selbstaufmerksamkeit ein, um visuelles Konsens zu finden, und verbessern so die semantische Konsistenz innerhalb desselben Objekts. Ausgestattet mit einer Vision-Sprach-Aufforderungsstrategie steigert unser Ansatz signifikant die Verallgemeinerungsfähigkeit von Segmentierungsmodellen für unbekannte Klassen. Experimentelle Ergebnisse unterstreichen die Effektivität unseres Ansatzes, wobei ein mIoU-Zuwachs von 4,5 im PASCAL VOC 2012 und 3,6 im COCO-Stuff 164k für unbekannte Klassen im Vergleich zu den modernsten Methoden gezeigt wird.
Zhang et al. (Wed,) haben diese Frage untersucht.