What type of study is this?

This is a Experimental Study study.

October 8, 2025Open Access

RePaViT : Accélération évolutive des Vision Transformers via une reparamétrisation structurelle sur les couches de réseau feedforward

Key Points

RePaViT améliore la vitesse d'inférence en reparamétrisant les couches de réseau feedforward, renforçant les Vision Transformers.
Le mécanisme atteint jusqu'à 68,7 % d'accélération et une précision améliorée sur les modèles plus grands, indiquant une bonne évolutivité.
La reparamétrisation structurelle permet une utilisation efficace des canaux de caractéristiques lors de l'inférence, réduisant la latence sans pertes sévères de précision.
Cette approche représente une direction prometteuse pour développer des Vision Transformers plus rapides et plus efficients à l'avenir.

Abstract

Nous révélons que les couches de réseau feedforward (FFN), plutôt que les couches d'attention, sont les principales contributrices à la latence d'inférence des Vision Transformers (ViT), leur impact augmentant avec la taille du modèle. Cette constatation met en évidence une opportunité cruciale pour optimiser l'efficacité des grands ViT en se concentrant sur les couches FFN. Dans ce travail, nous proposons un nouveau mécanisme d'inactivité des canaux qui facilite la reparamétrisation structurelle post-entraînement pour des couches FFN efficientes lors des tests. Plus précisément, un ensemble de canaux de caractéristiques reste inactif et contourne la fonction d'activation non linéaire dans chaque couche FFN, formant ainsi un chemin linéaire qui permet la reparamétrisation structurelle lors de l'inférence. Ce mécanisme aboutit à une famille de Vision Transformers reparamétrables (RePaViTs), qui réalisent des réductions remarquables de latence avec des sacrifices acceptables (parfois des gains) en précision à travers divers ViT. Les bénéfices de notre méthode évoluent de manière cohérente avec la taille des modèles, démontrant des améliorations de vitesse plus importantes et un rétrécissement progressif des écarts de précision, voire des précisions supérieures sur les plus grands modèles. En particulier, RePa-ViT-Large et RePa-ViT-Huge bénéficient respectivement de gains de vitesse de 66,8 % et 68,7 % avec des précisions top-1 plus élevées de +1,7 % et +1,1 % sous la même stratégie d'entraînement. RePaViT est, à notre connaissance, le premier à employer la reparamétrisation structurelle sur les couches FFN pour accélérer les ViT, et nous pensons qu'il représente une direction prometteuse pour des ViT efficients. Le code source est disponible à https://github.com/Ackesnal/RePaViT.

RePaViT : Accélération évolutive des Vision Transformers via une reparamétrisation structurelle sur les couches de réseau feedforward

Key Points

Abstract

Cite This Study