Große Sprachmodelle (LLMs) nutzen Key-Value (KV)-Caches, um redundante Berechnungen in autoregressiven Generierungen zu reduzieren. Allerdings wächst die Größe des KV-Caches während der Generierung linear, was zu übermäßigem Speicherverbrauch führt, insbesondere bei langen Texten. Die meisten Methoden zur Kompression von KV-Caches entfernen die unwichtigen KV-Paare, um eine feste Cache-Größe beizubehalten, was zu einem dauerhaften Verlust von Tokens während der Generierung führt. Die Singularwertzerlegung zeigt jedoch, dass Werte nicht die ausgeprägte Niedrigrang-Eigenschaft wie Schlüssel aufweisen, was darauf hindeutet, dass Informationen gleichmäßiger über Werte verteilt sind, im Gegensatz zu deren redundanterer Verteilung innerhalb der Schlüssel. Daher riskieren Methoden, die sowohl Schlüssel als auch Werte entfernen, essentielle Informationen zu verlieren und die Integrität des Kontexts zu gefährden, was letztendlich die Ausgabequalität beeinträchtigt. Um dieses Problem zu beheben, schlagen wir WeightedKV vor, einen neuartigen, trainingsfreien Ansatz, der die Schlüssel weniger wichtiger Tokens verwirft und deren Werte mittels einer konvexen Kombination, gewichtet nach ihren durchschnittlichen Aufmerksamkeitswerten, mit benachbarten Tokens zusammenführt. Auf diese Weise dienen die beibehaltenen Schlüssel als Anker, die den Generierungsprozess leiten, während die zusammengeführten Werte einen reichen kontextuellen Hintergrund bieten. Wir bewerten unsere Methode an vier weit verbreiteten Datensätzen für Sprachmodellierung und zeigen eine überlegene Leistung im Vergleich zu allen Basisverfahren, insbesondere mit einem niedrigeren Budgetverhältnis.
Yuan et al. (Mon,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: