What question did this study set out to answer?

Cette recherche vise à améliorer la distillation des connaissances en utilisant un modèle enseignant unique tout en renforçant l'efficacité et la robustesse de l'entraînement.

January 26, 2026

Orchestration de l'expertise des invites : amélioration de la distillation des connaissances par un ajustement guidé par des experts

Key Points

Cette recherche vise à améliorer la distillation des connaissances en utilisant un modèle enseignant unique tout en renforçant l'efficacité et la robustesse de l'entraînement.
Développement du cadre MoE-KD pour la distillation des connaissances utilisant plusieurs invites entraînables issues d'un seul modèle enseignant.
Introduction d'un mécanisme basé sur l'incertitude pour générer des signaux de supervision robustes.
Implémentation d'un module sélecteur pour associer les instances d'entrée au modèle enseignant approprié.
Extension du cadre aux scénarios d'apprentissage tout au long de la vie pour traiter l'oubli catastrophique.
Obtention d'améliorations pouvant aller jusqu'à 1,1 % en précision pour les tâches de distillation des connaissances.
Augmentation de l'efficacité d'entraînement et d'inférence de 140 % par rapport aux méthodes de référence.
Améliorations moyennes de 2,8 % obtenues dans les scénarios d'apprentissage tout au long de la vie.

Abstract

La distillation des connaissances multi-enseignants transfère les connaissances de plusieurs grands modèles enseignants vers un petit modèle étudiant et a obtenu de bons résultats sur de nombreuses tâches en aval. Cependant, lors de la distillation à partir de plusieurs enseignants, elle souffre toujours des problèmes majeurs de consommation de temps et d'utilisation importante du stockage liés à l'entraînement et à l'inférence de plusieurs modèles enseignants. Nous présentons MoE-KD, un cadre simple mais efficace qui produit une supervision pour l'entraînement du modèle étudiant à partir d'un seul modèle enseignant, ce qui résout les problèmes mentionnés et améliore l'efficacité. Dans le MoE-KD proposé, plusieurs invites entraînables sont utilisées pour extraire différentes perspectives des échantillons à partir d'un seul modèle de langage pré-entraîné, et seuls quelques paramètres (invites) doivent être entraînés et stockés. Pour garantir que les signaux de supervision générés soient plus robustes et corrects, nous introduisons un mécanisme basé sur l'incertitude ainsi qu'un module sélecteur, qui dirige l'instance d'entrée vers son enseignant correspondant. Nous avons également étendu MoE-KD aux scénarios d'apprentissage tout au long de la vie, proposant une solution légère au problème de l'oubli catastrophique. Nous avons mené des expériences sur des scénarios traditionnels de distillation des connaissances et d'apprentissage continu. MoE-KD apporte des améliorations allant jusqu'à 1,1 % en précision et 140 % en efficacité dans la distillation des connaissances, ainsi qu'une amélioration moyenne de 2,8 % en apprentissage continu, comparé aux méthodes de référence robustes.

Demander à l'IA

Bookmark