Nous révélons que les couches de réseau feedforward (FFN), plutôt que les couches d'attention, sont les principales contributrices à la latence d'inférence des Vision Transformers (ViT), leur impact augmentant avec la taille du modèle. Cette constatation met en évidence une opportunité cruciale pour optimiser l'efficacité des grands ViT en se concentrant sur les couches FFN. Dans ce travail, nous proposons un nouveau mécanisme d'inactivité des canaux qui facilite la reparamétrisation structurelle post-entraînement pour des couches FFN efficientes lors des tests. Plus précisément, un ensemble de canaux de caractéristiques reste inactif et contourne la fonction d'activation non linéaire dans chaque couche FFN, formant ainsi un chemin linéaire qui permet la reparamétrisation structurelle lors de l'inférence. Ce mécanisme aboutit à une famille de Vision Transformers reparamétrables (RePaViTs), qui réalisent des réductions remarquables de latence avec des sacrifices acceptables (parfois des gains) en précision à travers divers ViT. Les bénéfices de notre méthode évoluent de manière cohérente avec la taille des modèles, démontrant des améliorations de vitesse plus importantes et un rétrécissement progressif des écarts de précision, voire des précisions supérieures sur les plus grands modèles. En particulier, RePa-ViT-Large et RePa-ViT-Huge bénéficient respectivement de gains de vitesse de 66,8 % et 68,7 % avec des précisions top-1 plus élevées de +1,7 % et +1,1 % sous la même stratégie d'entraînement. RePaViT est, à notre connaissance, le premier à employer la reparamétrisation structurelle sur les couches FFN pour accélérer les ViT, et nous pensons qu'il représente une direction prometteuse pour des ViT efficients. Le code source est disponible à https://github.com/Ackesnal/RePaViT.
Xu et al. (mar.) ont étudié cette question.