What type of study is this?

This is a Quantitative Study study.

October 13, 2025Open Access

WeightedKV: Aufmerksamkeitsgewichte für das Zusammenführen von Key-Value-Caches für große Sprachmodelle

Key Points

WeightedKV verbessert die Kontextintegrität, während der Speicherverbrauch während der autoregressiven Generierung reduziert wird.
Die Methode führt die Werte weniger wichtiger Tokens basierend auf Aufmerksamkeitswerten zusammen, was die Ausgabequalität verbessert.
Die Bewertung an vier Datensätzen zur Sprachmodellierung zeigt eine überlegene Leistung im Vergleich zu Basisverfahren.
Der Einsatz der Singularwertzerlegung offenbart die unterschiedlichen Eigenschaften von Schlüsseln und Werten in Cache-Mechanismen.

Abstract

Große Sprachmodelle (LLMs) nutzen Key-Value (KV)-Caches, um redundante Berechnungen in autoregressiven Generierungen zu reduzieren. Allerdings wächst die Größe des KV-Caches während der Generierung linear, was zu übermäßigem Speicherverbrauch führt, insbesondere bei langen Texten. Die meisten Methoden zur Kompression von KV-Caches entfernen die unwichtigen KV-Paare, um eine feste Cache-Größe beizubehalten, was zu einem dauerhaften Verlust von Tokens während der Generierung führt. Die Singularwertzerlegung zeigt jedoch, dass Werte nicht die ausgeprägte Niedrigrang-Eigenschaft wie Schlüssel aufweisen, was darauf hindeutet, dass Informationen gleichmäßiger über Werte verteilt sind, im Gegensatz zu deren redundanterer Verteilung innerhalb der Schlüssel. Daher riskieren Methoden, die sowohl Schlüssel als auch Werte entfernen, essentielle Informationen zu verlieren und die Integrität des Kontexts zu gefährden, was letztendlich die Ausgabequalität beeinträchtigt. Um dieses Problem zu beheben, schlagen wir WeightedKV vor, einen neuartigen, trainingsfreien Ansatz, der die Schlüssel weniger wichtiger Tokens verwirft und deren Werte mittels einer konvexen Kombination, gewichtet nach ihren durchschnittlichen Aufmerksamkeitswerten, mit benachbarten Tokens zusammenführt. Auf diese Weise dienen die beibehaltenen Schlüssel als Anker, die den Generierungsprozess leiten, während die zusammengeführten Werte einen reichen kontextuellen Hintergrund bieten. Wir bewerten unsere Methode an vier weit verbreiteten Datensätzen für Sprachmodellierung und zeigen eine überlegene Leistung im Vergleich zu allen Basisverfahren, insbesondere mit einem niedrigeren Budgetverhältnis.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper