April 26, 2024Open Access

Adaptation fine paramétrique efficace des ViTs auto-supervisés sans oubli catastrophique

Key Points

La chute de performance est minime lors de l'utilisation de l'Expansion de Bloc, atténuant efficacement l'oubli catastrophique dans les transformateurs de vision pré-entraînés.
Utiliser l'Expansion de Bloc ou l'adaptation de faible rang offre une meilleure efficacité des paramètres par rapport aux transformateurs de vision entièrement réglés pour de nouvelles tâches.
Le réglage fin sur CIFAR-100 entraîne une perte de précision de plus de 70 % pour les modèles pré-entraînés sur ImageNet-1k, soulignant le problème de l'oubli catastrophique dans le processus de formation des transformateurs de vision et les stratégies de gestion des paramètres utilisées dans ce travail tiennent compte de cette perte tout en favorisant l'efficacité du modèle. Notamment, les transformateurs de vision pré-entraînés par auto-supervision performent de manière significative même après l'introduction de nouvelles tâches.

Abstract

Les réseaux de neurones artificiels souffrent souvent de l'oubli catastrophique, où l'apprentissage de nouveaux concepts entraîne une perte totale des connaissances acquises précédemment. Nous observons que ce problème est particulièrement accentué dans les transformeurs de vision (ViTs), où la post-préformation et la fine adaptation sur de nouvelles tâches peuvent dégrader significativement les capacités générales initiales du modèle. Par exemple, un ViT-Base/16 DINO pré-entraîné sur ImageNet-1k perd plus de 70 % de précision sur ImageNet-1k après seulement 10 itérations de fine adaptation sur CIFAR-100. Surmonter ce dilemme stabilité-plasticité est crucial pour permettre aux ViTs d'apprendre et de s'adapter continuellement à de nouveaux domaines tout en préservant leurs connaissances initiales. Dans ce travail, nous étudions deux nouvelles stratégies d'adaptation fine paramétrique efficaces : (1) Expansion de blocs, et (2) adaptation en basse-rangée (LoRA). Nos expériences révèlent que l'utilisation de l'Expansion de blocs ou de LoRA sur des ViTs pré-entraînés en auto-supervision dépasse les ViTs entièrement fine adaptés dans de nouveaux domaines tout en offrant une efficacité paramétrique significativement supérieure. Notamment, nous constatons que l'Expansion de blocs subit uniquement une baisse minimale de performance dans le domaine de préformation, atténuant ainsi efficacement l'oubli catastrophique dans les ViTs pré-entraînés.

Adaptation fine paramétrique efficace des ViTs auto-supervisés sans oubli catastrophique

Key Points

Abstract

Cite This Study