La distillation des connaissances multi-enseignants transfère les connaissances de plusieurs grands modèles enseignants vers un petit modèle étudiant et a obtenu de bons résultats sur de nombreuses tâches en aval. Cependant, lors de la distillation à partir de plusieurs enseignants, elle souffre toujours des problèmes majeurs de consommation de temps et d'utilisation importante du stockage liés à l'entraînement et à l'inférence de plusieurs modèles enseignants. Nous présentons MoE-KD, un cadre simple mais efficace qui produit une supervision pour l'entraînement du modèle étudiant à partir d'un seul modèle enseignant, ce qui résout les problèmes mentionnés et améliore l'efficacité. Dans le MoE-KD proposé, plusieurs invites entraînables sont utilisées pour extraire différentes perspectives des échantillons à partir d'un seul modèle de langage pré-entraîné, et seuls quelques paramètres (invites) doivent être entraînés et stockés. Pour garantir que les signaux de supervision générés soient plus robustes et corrects, nous introduisons un mécanisme basé sur l'incertitude ainsi qu'un module sélecteur, qui dirige l'instance d'entrée vers son enseignant correspondant. Nous avons également étendu MoE-KD aux scénarios d'apprentissage tout au long de la vie, proposant une solution légère au problème de l'oubli catastrophique. Nous avons mené des expériences sur des scénarios traditionnels de distillation des connaissances et d'apprentissage continu. MoE-KD apporte des améliorations allant jusqu'à 1,1 % en précision et 140 % en efficacité dans la distillation des connaissances, ainsi qu'une amélioration moyenne de 2,8 % en apprentissage continu, comparé aux méthodes de référence robustes.
Meng et al. (Sat,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: