What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 20, 2025Open Access

LoRA-Null: Niedrigrangige Anpassung über den Nullraum für große Sprachmodelle

Key Points

LoRA-Null erhält eine starke Feinabstimmungsleistung, während es das vortrainierte Weltwissen bewahrt.
Experimentelle Ergebnisse über verschiedene Aufgaben zeigen eine signifikante Verbesserung bei der Initialisierung mit der Nullraumprojektion.
Das Einfrieren der Werte der Down-Projektionsmatrizen während der Feinabstimmung verbessert die Bewahrung des vortrainierten Wissens.
Der Ansatz wird durch umfangreiche Experimente an der LLaMA-Serie für verschiedene Aufgaben validiert.

Abstract

Die niedrrangige Anpassung (LoRA) ist die führende parameter-effiziente Feinabstimmungsmethode für große Sprachmodelle (LLMs). Allerdings stehen die feinabgestimmten LLMs vor dem Problem des katastrophalen Vergessens des vortrainierten Weltwissens. Um dieses Problem anzugehen, schlagen wir, inspiriert von theoretischen Erkenntnissen über den Nullraum, LoRA-Null vor, d.h. die niedrrangige Anpassung über den Nullraum, die Adapter auf der Grundlage des Nullraums der vortrainierten Wissensaktivierung initiiert. Konkret sammeln wir zufällig einige Datenproben und erfassen deren Aktivierungen, nachdem sie durch die LLM-Schicht gegangen sind. Wir führen eine Singulärwertzerlegung der Eingangsaktivierungen durch, um ihren Nullraum zu erhalten. Wir verwenden die Projektion der vortrainierten Gewichte auf den Nullraum als Initialisierung für die Adapter. Experimentelle Ergebnisse zeigen, dass dieser Initialisierungsansatz das ursprüngliche vortrainierte Weltwissen der LLMs während der Feinabstimmung effektiv bewahren kann. Darüber hinaus erreichen wir eine noch bessere Bewahrung des vortrainierten Weltwissens, wenn wir die Werte der Down-Projektionsmatrizen während der Feinabstimmung einfrieren. LoRA-Null bewahrt effektiv das vortrainierte Weltwissen und erhält gleichzeitig eine starke Feinabstimmungsleistung, was durch umfangreiche Experimente an der LLaMA-Serie (LLaMA2, LLaMA3, LLaMA3.1 und LLaMA3.2) in den Bereichen Code, Mathematik und Instruktionsbefolgung validiert wird. Wir bieten auch eine theoretische Garantie für die Fähigkeit von LoRA-Null, vortrainiertes Wissen zu behalten. Der Code ist unter https://github.com/HungerPWAY/LoRA-Null verfügbar.

LoRA-Null: Niedrigrangige Anpassung über den Nullraum für große Sprachmodelle

Key Points

Abstract

Cite This Study