What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

DA-VPT: Semantisch-gesteuertes visuelles Prompt-Tuning für Vision-Transformers

Key Points

Eine effektivere Feinabstimmung von Vision-Transformers wurde durch einen neuartigen semantisch-gesteuerten Ansatz erreicht.
Die Nutzung von metrischem Lernen hat die Verteilung visueller Prompts erheblich beeinflusst, was die Ergebnisse des Feintunings angeht.
Die vorgeschlagene Methode verknüpft semantische Informationen zwischen Bild-Patches und dem Klassentoken für eine bessere Erkennung.
Die Bewertung auf verschiedenen Benchmarks zeigte eine verbesserte Leistung sowohl in Erkennungs- als auch in Segmentierungsaufgaben.

Abstract

Visuelles Prompt-Tuning (VPT) hat sich als vielversprechende Lösung für den Parameter-effizienten Feintuning-Ansatz (PEFT) für Vision-Transformer (ViT)-Modelle etabliert, indem es anpassbare Token teilweise feintunt, während die meisten Modellparameter eingefroren bleiben. Jüngste Forschungen haben die Modifikation der Verbindungsstrukturen der Prompts untersucht. Die grundlegende Korrelation und Verteilung zwischen den Prompts und Bild-Tokens bleibt jedoch unerforscht. In diesem Papier nutzen wir Techniken des metrischen Lernens, um zu untersuchen, wie die Verteilung der Prompts die Feintuning-Leistung beeinflusst. Konkret schlagen wir einen neuartigen Rahmen vor, das Distribution Aware Visual Prompt Tuning (DA-VPT), um die Verteilungen der Prompts zu steuern, indem wir die Distanzmetrik aus ihren klassenbezogenen semantischen Daten lernen. Unsere Methode zeigt, dass die Prompts als effektive Brücke dienen können, um semantische Informationen zwischen Bild-Patches und dem Klassentoken auszutauschen. Wir haben unseren Ansatz umfassend auf beliebten Benchmarks in sowohl Erkennungs- als auch Segmentierungsaufgaben evaluiert. Die Ergebnisse zeigen, dass unser Ansatz eine effektivere und effizientere Feinabstimmung von ViT-Modellen ermöglicht, indem semantische Informationen genutzt werden, um das Lernen der Prompts zu leiten, was zu einer verbesserten Leistung bei verschiedenen nachgelagerten Vision-Aufgaben führt.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Li Ren

University of Central Florida

Chen Chen

University of Otago

Liqiang Wang

University of Central Florida

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

DA-VPT: Semantisch-gesteuertes visuelles Prompt-Tuning für Vision-Transformers

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider