What type of study is this?

This is a Experimental Study study.

October 13, 2025Open Access

SpecVLM: Schnelles spekulatives Decoding in Vision-Language-Modellen

Key Points

SpecVLM erzielt 2,5–2,9-fache End-to-End-Beschleunigungen über verschiedene Aufgaben und Auflösungen und verbessert die Inferenzleistung.
Das vorgeschlagene System übertrifft vollständige autoregressive Modelle mit einer 1,5–2,3-fachen Beschleunigung unter Verwendung einer effizienten EAGLE-2-Baseline.
Ein Online-Logit-Destillationsprotokoll trainiert Modelle dynamisch und schafft die Notwendigkeit umfassender Offline-Datensätze und Berechnungen ab.
SpecVLM erhält die Output-Qualität bei gleichzeitiger Beschleunigung der Verarbeitungszeiten und zeigt signifikante Verbesserungen im spekulativen Decoding.

Abstract

Spekulatives Decoding ist eine leistungsstarke Methode zur Beschleunigung autoregressiver großer Sprachmodelle (LLMs), aber die direkte Übertragung auf Vision-Language-Modelle (VLMs) steht vor einzigartigen Systembeschränkungen: Die Vorbefüllungsphase wird von visuellen Token dominiert, deren Anzahl mit der Bildauflösung und der Videolänge skaliert, was sowohl Rechenleistung als auch Speicher belastet, insbesondere den Key-Value (KV) Cache. Wir untersuchen spekulatives Decoding für VLMs und stellen SpecVLM vor, ein praktisches System, das (1) eine starke EAGLE-2-ähnliche Basislinie, EagleVLM, etabliert, die eine 1,5–2,3-fache End-to-End-Beschleunigung gegenüber vollständiger autoregressiver Inferenz bietet, und (2) die VLM-Inferenz weiter mit einem elastischen visuellen Kompressor beschleunigt, der adaptiv zwischen Pruning, Pooling, Konvolution und Resampling-Primitiven auswählt, um FLOPs/Parameter und Genauigkeit pro Eingabe auszubalancieren. Um kostspielige Offline-Destillationskorpora zu vermeiden, schlagen wir ein Online-Logit-Destillationsprotokoll vor, das das Entwurfmodell mit temporären Lehrer-Logits und vorletzten Merkmalen unter Verwendung eines kombinierten Cross-Entropy- und Smooth L1-Objektivs trainiert, wodurch Speicher- und Vorverarbeitungsbedarf entfällt, während die Rechenleistung effizient bleibt. Dieses Protokoll zeigt einen Skalierungseffekt zur Trainingszeit: Längeres Online-Training erhöht monoton die durchschnittliche akzeptierte Länge des Entwurfmodells und verbessert die spekulative Effizienz. Empirisch erreicht SpecVLM zusätzliche Beschleunigungen, die in einer 2,5–2,9-fachen End-to-End-Beschleunigung innerhalb von 5 Epochen über LLaVA und MMMU gipfeln, konsistent über Auflösungen und Aufgabenstellungen hinweg, während die Outputverteilung des Zielmodells (verlustfreies Decoding) erhalten bleibt. Unser Code ist verfügbar unter https://github.com/haiduo/SpecVLM.

SpecVLM: Schnelles spekulatives Decoding in Vision-Language-Modellen

Key Points

Abstract

Cite This Study