February 18, 2024Open Access

Pourquoi soulever aussi lourd ? Affiner les grands modèles de langage en coupant des couches

Key Points

Key points are not available for this paper at this time.

Abstract

Les grands modèles de langage (LLM) possèdent des capacités exceptionnelles pour traiter diverses tâches de traitement du langage naturel (NLP). Cependant, la taille même de ces modèles pose des défis en termes de stockage, d'entraînement et d'inférence en raison de l'inclusion de milliards de paramètres via l'empilement de couches. Bien que les approches traditionnelles telles que l'élagage de modèles ou la distillation offrent des moyens de réduire la taille du modèle, elles se font souvent au prix de la conservation des performances. Dans notre étude, nous explorons systématiquement l'approche de réduction du nombre de couches dans les LLM. De manière surprenante, nous observons que même avec moins de couches, les LLM conservent des niveaux de performance similaires ou meilleurs, en particulier dans le réglage fin basé sur les prompts pour les tâches de classification de texte. Remarquablement, dans certains cas, les modèles à une seule couche surpassent leurs homologues entièrement empilés. Ces résultats offrent des perspectives précieuses pour les travaux futurs visant à atténuer les contraintes de taille des LLM tout en préservant leurs performances, ouvrant ainsi la voie à une utilisation nettement plus efficiente des LLM.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper