Das Problem der Optimierung neuronaler Netzwerke für große Sprachmodelle (LLMs) wie ChatGPT wird diskutiert. Eine der entwickelten Richtungen zur Optimierung von LLMs ist die Knowledge Distillation – die Übertragung von Wissen von einem großen Lehrermodell auf ein kleineres Schüler-Modell ohne signifikanten Genauigkeitsverlust des Ergebnisses. Die bestehenden Methoden der Knowledge Distillation haben bestimmte Nachteile: ungenaue Wissensübertragung, langer Lernprozess und Fehlerakkumulation in langen Sequenzen. Es wird eine Kombination von Methoden betrachtet, die die Qualität der Knowledge Distillation verbessern: selektive Lehrerintervention im Lernprozess des Schülers und Low-Rank-Adaptation. Die vorgeschlagene Kombination von Knowledge-Distillation-Methoden kann bei Problemen mit begrenzten Rechenressourcen angewendet werden.
Sikarev et al. (Mon,) untersuchten diese Fragestellung.