Key points are not available for this paper at this time.
Trotz der jüngsten Fortschritte in der Quantisierung großer Sprachmodelle bleibt die Aktivierungsquantisierung aufgrund der Aktivierungs-Outlier herausfordernd. Konventionelle Abhilfe, z.B. das Mischen von Präzisionen für verschiedene Kanäle, führt zu zusätzlichem Overhead und verringert die Beschleunigung. In dieser Arbeit entwickeln wir eine einfache, aber effektive Strategie, um die Aktivierungsquantisierung pro Tensor zu erleichtern, indem wir die Erzeugung problematischer Tokens verhindern. Genauer gesagt schlagen wir eine Methode vor, um ein Set von Schlüssel-Wert-Caches zu finden, das CushionCache genannt wird, welches die Outlier in nachfolgenden Tokens mildert, wenn es als Präfix eingefügt wird. CushionCache funktioniert in zwei Schritten: Zuerst suchen wir gierig nach einer Eingabetokenfolge, die die maximalen Aktivierungswerte in nachfolgenden Tokens minimiert. Dann stimmen wir den Token-Cache weiter ab, um die Aktivierungen nachfolgender Tokens quantisierungsfreundlicher zu gestalten. Die vorgeschlagene Methode adressiert erfolgreich die Aktivierungs-Outlier von großen Sprachmodellen und bietet einen erheblichen Leistungszuwachs für Methoden der Aktivierungsquantisierung pro Tensor. Wir evaluieren unsere Methode umfassend über ein breites Spektrum an Modellen und Benchmarks und stellen fest, dass sie die etablierte Basislinie der quantisierung pro Tensor W8A8 deutlich übertrifft und nahtlos mit der jüngsten Methode zur Aktivierungsquantisierung integriert werden kann.
Son et al. (Mon,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: