What question did this study set out to answer?

Ziel dieser Forschung ist es, die besten Möglichkeiten zu bestimmen, um Vision-Language-Modelle für Aufgaben der semantischen Segmentierung aufzufordern.

February 2, 2026Open Access

Zeigen oder Erzählen? Effektives Auffordern von Vision-Language-Modellen für die semantische Segmentierung

Key Points

Ziel dieser Forschung ist es, die besten Möglichkeiten zu bestimmen, um Vision-Language-Modelle für Aufgaben der semantischen Segmentierung aufzufordern.
Systematische Bewertung aktueller Vision-Language-Modelle unter Verwendung von Text- und visuellen Aufforderungen.
Tests an dem Out-of-Distribution MESS-Datensatz zur Leistungsanalyse.
Einführung eines Few-Shot-aufgeforderten schematischen Segmentierungsschemas.
VLMs schneiden im Vergleich zu spezialisierten Modellen schlechter ab und hinken bei der Intersection-over-Union-Metrik um etwa 30% hinterher.
Text- und visuelle Aufforderungen ergänzen sich, wobei jeder Typ bei einigen Beispielen scheitert.
PromptMatcher kombiniert beide Aufforderungstypen und erzielt Ergebnisse auf höchstem Niveau, indem es die besten Modelle um 2,5% und 3,5% übertrifft.

Abstract

Große Vision-Language-Modelle (VLMs) werden zunehmend als Basis-Modelle betrachtet, die aufgefordert werden können, verschiedene Aufgaben zu lösen, ohne spezifisches Training für die jeweilige Aufgabe. Wir untersuchen die scheinbar offensichtliche Frage: Wie fordert man VLMs effektiv für die semantische Segmentierung auf? Zu diesem Zweck bewerten wir systematisch die Segmentierungsleistung mehrerer neuerer Modelle, die entweder durch Text- oder visuelle Aufforderungen geleitet werden, anhand der Out-of-Distribution MESS-Datensatzsammlung. Wir führen ein skalierbares Aufforderungsschema ein, die Few-Shot-aufforderungsgesteuerte semantische Segmentierung, inspiriert von Open-Vocabulary-Segmentierung und Few-Shot-Lernen. Es stellt sich heraus, dass VLMs im Vergleich zu spezialisierten Modellen, die für eine spezifische Segmentierungsaufgabe trainiert wurden, um etwa 30% hinterherhinken, gemessen an der Intersection-over-Union-Metrik. Darüber hinaus stellen wir fest, dass Text- und visuelle Aufforderungen sich ergänzen: jede der beiden Modi schlägt bei vielen Beispielen fehl, die der andere lösen kann. Unsere Analyse legt nahe, dass die Fähigkeit, die effektivste Aufforderungsmodalität vorherzusehen, zu einer Leistungsverbesserung von 11% führen kann. Motiviert durch unsere Ergebnisse schlagen wir PromptMatcher vor, eine bemerkenswert einfache trainingsfreie Basislinie, die sowohl Text- als auch visuelle Aufforderungen kombiniert und state-of-the-art Ergebnisse erzielt, indem sie die besten textuell aufgeforderten VLMs um 2,5% und die besten visuell aufgeforderten VLMs um 3,5% bei der few-shot-aufforderungsgesteuerten semantischen Segmentierung übertrifft.

Zeigen oder Erzählen? Effektives Auffordern von Vision-Language-Modellen für die semantische Segmentierung

Key Points

Abstract

Cite This Study