March 24, 2024Open Access

Lehrer als nachsichtiger Experte: Lehrer-agnostische datalose Wissensdistillation

Key Points

Key points are not available for this paper at this time.

Abstract

Die datalose Wissensdistillation (DFKD) zielt darauf ab, vortrainiertes Wissen mit Hilfe eines Generators an ein Studentmodell zu destillieren, ohne ursprüngliche Daten zu verwenden. In solchen datalosen Szenarien ist es essentiell, eine stabile Leistung der DFKD zu erreichen, aufgrund der Nichterhältlichkeit von Validierungsdaten. Leider hat dieses Paper entdeckt, dass bestehende DFKD-Methoden sehr empfindlich auf unterschiedliche Lehrermodelle reagieren und gelegentlich katastrophale Destillationsfehler zeigen, selbst bei gut trainierten Lehrermodellen. Unsere Beobachtung ist, dass der Generator in DFKD nicht immer garantiert präzise und dennoch vielfältige Proben produziert, wenn die bestehende repräsentative Strategie der Minimierung sowohl klassenspezifischer als auch adversarialer Verluste verwendet wird. Durch unsere empirische Studie konzentrieren wir uns darauf, dass klassenspezifische Prioritäten nicht nur die Vielfalt der generierten Proben verringern, sondern auch das Problem der unerwartet niedrigen Qualitätsproben je nach Lehrermodellen nicht vollständig lösen können. In diesem Paper schlagen wir die Lehrer-agnostische datalose Wissensdistillationsmethode (TA-DFKD) vor, mit dem Ziel einer robusteren und stabileren Leistung unabhängig von den Lehrermodellen. Unsere Grundidee ist es, dem Lehrermodell eine nachsichtige Expertenrolle bei der Bewertung von Proben zuzuweisen, anstatt einen strengen Supervisor, der seine klassenspezifischen Prioritäten dem Generator aufzwingt. Konkret entwerfen wir einen Ansatz zur Probenauswahl, der nur saubere Proben verwendet, die vom Lehrermodell verifiziert wurden, ohne Einschränkungen hinsichtlich der Fähigkeit zur Generierung vielfältiger Proben aufzuerlegen. Durch umfassende Experimente zeigen wir, dass unsere Methode sowohl Robustheit als auch Trainingsstabilität über verschiedene Lehrermodelle hinweg erfolgreich erreicht und dabei die bestehenden DFKD-Methoden übertrifft.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper