Les réseaux de neurones artificiels souffrent souvent de l'oubli catastrophique, où l'apprentissage de nouveaux concepts entraîne une perte totale des connaissances acquises précédemment. Nous observons que ce problème est particulièrement accentué dans les transformeurs de vision (ViTs), où la post-préformation et la fine adaptation sur de nouvelles tâches peuvent dégrader significativement les capacités générales initiales du modèle. Par exemple, un ViT-Base/16 DINO pré-entraîné sur ImageNet-1k perd plus de 70 % de précision sur ImageNet-1k après seulement 10 itérations de fine adaptation sur CIFAR-100. Surmonter ce dilemme stabilité-plasticité est crucial pour permettre aux ViTs d'apprendre et de s'adapter continuellement à de nouveaux domaines tout en préservant leurs connaissances initiales. Dans ce travail, nous étudions deux nouvelles stratégies d'adaptation fine paramétrique efficaces : (1) Expansion de blocs, et (2) adaptation en basse-rangée (LoRA). Nos expériences révèlent que l'utilisation de l'Expansion de blocs ou de LoRA sur des ViTs pré-entraînés en auto-supervision dépasse les ViTs entièrement fine adaptés dans de nouveaux domaines tout en offrant une efficacité paramétrique significativement supérieure. Notamment, nous constatons que l'Expansion de blocs subit uniquement une baisse minimale de performance dans le domaine de préformation, atténuant ainsi efficacement l'oubli catastrophique dans les ViTs pré-entraînés.
Bafghi et al. (Vendredi,) ont étudié cette question.