Key points are not available for this paper at this time.
Die Token-Kompression zielt darauf ab, große Vision-Transformer (z. B. ViTs) durch das Entfernen (Pruning) oder Zusammenführen von Token zu beschleunigen. Es ist eine wichtige, aber herausfordernde Aufgabe. Obwohl neueste fortschrittliche Ansätze große Erfolge erzielt haben, müssen sie eine Kompressionsrate (d. h. die Anzahl der zu entfernenden Token) sorgfältig handwerklich gestalten, was mühsam ist und zu suboptimalen Leistungen führt. Um dieses Problem anzugehen, schlagen wir die Differenzierbare Kompressionsrate (DiffRate) vor, eine neuartige Methode zur Token-Kompression, die mehrere ansprechende Eigenschaften aufweist, die frühere Arbeiten nicht hatten. Erstens ermöglicht DiffRate die Weitergabe des Gradienten der Verlustfunktion auf das Kompressionsverhältnis, das in früheren Arbeiten als nicht-differenzierbarer Hyperparameter betrachtet wurde. In diesem Fall können verschiedene Schichten automatisch verschiedene Kompressionsraten schichtweise lernen, ohne zusätzlichen Overhead. Zweitens können das Pruning und Zusammenführen von Token in DiffRate natürlich gleichzeitig durchgeführt werden, während sie in früheren Arbeiten isoliert waren. Drittens zeigen umfangreiche Experimente, dass DiffRate eine herausragende Leistung erreicht. Zum Beispiel erreichen wir durch die Anwendung der erlernten schichtweisen Kompressionsraten auf ein handelsübliches ViT-H (MAE)-Modell eine Reduktion der FLOPs um 40% und eine Verbesserung des Durchsatzes um das 1,5-fache, mit einem geringen Genauigkeitsverlust von 0,16% bei ImageNet ohne Feinabstimmung, und übertreffen sogar frühere Methoden mit Feinabstimmung. Codes und Modelle sind verfügbar unter https://github.com/OpenGVLab/DiffRate.
Chen et al. (Sun,) haben diese Frage untersucht.