Visuelles Prompt-Tuning (VPT) hat sich als vielversprechende Lösung für den Parameter-effizienten Feintuning-Ansatz (PEFT) für Vision-Transformer (ViT)-Modelle etabliert, indem es anpassbare Token teilweise feintunt, während die meisten Modellparameter eingefroren bleiben. Jüngste Forschungen haben die Modifikation der Verbindungsstrukturen der Prompts untersucht. Die grundlegende Korrelation und Verteilung zwischen den Prompts und Bild-Tokens bleibt jedoch unerforscht. In diesem Papier nutzen wir Techniken des metrischen Lernens, um zu untersuchen, wie die Verteilung der Prompts die Feintuning-Leistung beeinflusst. Konkret schlagen wir einen neuartigen Rahmen vor, das Distribution Aware Visual Prompt Tuning (DA-VPT), um die Verteilungen der Prompts zu steuern, indem wir die Distanzmetrik aus ihren klassenbezogenen semantischen Daten lernen. Unsere Methode zeigt, dass die Prompts als effektive Brücke dienen können, um semantische Informationen zwischen Bild-Patches und dem Klassentoken auszutauschen. Wir haben unseren Ansatz umfassend auf beliebten Benchmarks in sowohl Erkennungs- als auch Segmentierungsaufgaben evaluiert. Die Ergebnisse zeigen, dass unser Ansatz eine effektivere und effizientere Feinabstimmung von ViT-Modellen ermöglicht, indem semantische Informationen genutzt werden, um das Lernen der Prompts zu leiten, was zu einer verbesserten Leistung bei verschiedenen nachgelagerten Vision-Aufgaben führt.
Building similarity graph...
Analyzing shared references across papers
Loading...
Li Ren
University of Central Florida
Chen Chen
University of Otago
Liqiang Wang
University of Central Florida
Building similarity graph...
Analyzing shared references across papers
Loading...
Ren et al. (Thu,) untersuchten diese Frage.
synapsesocial.com/papers/68e6bc5f38ca8e474d549dc4 — DOI: https://doi.org/10.48550/arxiv.2505.23694
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: