Große Vision-Language-Modelle (VLMs) werden zunehmend als Basis-Modelle betrachtet, die aufgefordert werden können, verschiedene Aufgaben zu lösen, ohne spezifisches Training für die jeweilige Aufgabe. Wir untersuchen die scheinbar offensichtliche Frage: Wie fordert man VLMs effektiv für die semantische Segmentierung auf? Zu diesem Zweck bewerten wir systematisch die Segmentierungsleistung mehrerer neuerer Modelle, die entweder durch Text- oder visuelle Aufforderungen geleitet werden, anhand der Out-of-Distribution MESS-Datensatzsammlung. Wir führen ein skalierbares Aufforderungsschema ein, die Few-Shot-aufforderungsgesteuerte semantische Segmentierung, inspiriert von Open-Vocabulary-Segmentierung und Few-Shot-Lernen. Es stellt sich heraus, dass VLMs im Vergleich zu spezialisierten Modellen, die für eine spezifische Segmentierungsaufgabe trainiert wurden, um etwa 30% hinterherhinken, gemessen an der Intersection-over-Union-Metrik. Darüber hinaus stellen wir fest, dass Text- und visuelle Aufforderungen sich ergänzen: jede der beiden Modi schlägt bei vielen Beispielen fehl, die der andere lösen kann. Unsere Analyse legt nahe, dass die Fähigkeit, die effektivste Aufforderungsmodalität vorherzusehen, zu einer Leistungsverbesserung von 11% führen kann. Motiviert durch unsere Ergebnisse schlagen wir PromptMatcher vor, eine bemerkenswert einfache trainingsfreie Basislinie, die sowohl Text- als auch visuelle Aufforderungen kombiniert und state-of-the-art Ergebnisse erzielt, indem sie die besten textuell aufgeforderten VLMs um 2,5% und die besten visuell aufgeforderten VLMs um 3,5% bei der few-shot-aufforderungsgesteuerten semantischen Segmentierung übertrifft.
Avogaro et al. (Tue,) haben diese Frage untersucht.