Spekulatives Decoding ist eine leistungsstarke Methode zur Beschleunigung autoregressiver großer Sprachmodelle (LLMs), aber die direkte Übertragung auf Vision-Language-Modelle (VLMs) steht vor einzigartigen Systembeschränkungen: Die Vorbefüllungsphase wird von visuellen Token dominiert, deren Anzahl mit der Bildauflösung und der Videolänge skaliert, was sowohl Rechenleistung als auch Speicher belastet, insbesondere den Key-Value (KV) Cache. Wir untersuchen spekulatives Decoding für VLMs und stellen SpecVLM vor, ein praktisches System, das (1) eine starke EAGLE-2-ähnliche Basislinie, EagleVLM, etabliert, die eine 1,5–2,3-fache End-to-End-Beschleunigung gegenüber vollständiger autoregressiver Inferenz bietet, und (2) die VLM-Inferenz weiter mit einem elastischen visuellen Kompressor beschleunigt, der adaptiv zwischen Pruning, Pooling, Konvolution und Resampling-Primitiven auswählt, um FLOPs/Parameter und Genauigkeit pro Eingabe auszubalancieren. Um kostspielige Offline-Destillationskorpora zu vermeiden, schlagen wir ein Online-Logit-Destillationsprotokoll vor, das das Entwurfmodell mit temporären Lehrer-Logits und vorletzten Merkmalen unter Verwendung eines kombinierten Cross-Entropy- und Smooth L1-Objektivs trainiert, wodurch Speicher- und Vorverarbeitungsbedarf entfällt, während die Rechenleistung effizient bleibt. Dieses Protokoll zeigt einen Skalierungseffekt zur Trainingszeit: Längeres Online-Training erhöht monoton die durchschnittliche akzeptierte Länge des Entwurfmodells und verbessert die spekulative Effizienz. Empirisch erreicht SpecVLM zusätzliche Beschleunigungen, die in einer 2,5–2,9-fachen End-to-End-Beschleunigung innerhalb von 5 Epochen über LLaVA und MMMU gipfeln, konsistent über Auflösungen und Aufgabenstellungen hinweg, während die Outputverteilung des Zielmodells (verlustfreies Decoding) erhalten bleibt. Unser Code ist verfügbar unter https://github.com/haiduo/SpecVLM.
Huang et al. (Mon,) haben diese Frage untersucht.