June 17, 2024Open Access

Vorfahren von Attention Sinks können Aktivierungs-Outlier bei der Quantisierung großer Sprachmodelle mildern

Key Points

Key points are not available for this paper at this time.

Abstract

Trotz der jüngsten Fortschritte in der Quantisierung großer Sprachmodelle bleibt die Aktivierungsquantisierung aufgrund der Aktivierungs-Outlier herausfordernd. Konventionelle Abhilfe, z.B. das Mischen von Präzisionen für verschiedene Kanäle, führt zu zusätzlichem Overhead und verringert die Beschleunigung. In dieser Arbeit entwickeln wir eine einfache, aber effektive Strategie, um die Aktivierungsquantisierung pro Tensor zu erleichtern, indem wir die Erzeugung problematischer Tokens verhindern. Genauer gesagt schlagen wir eine Methode vor, um ein Set von Schlüssel-Wert-Caches zu finden, das CushionCache genannt wird, welches die Outlier in nachfolgenden Tokens mildert, wenn es als Präfix eingefügt wird. CushionCache funktioniert in zwei Schritten: Zuerst suchen wir gierig nach einer Eingabetokenfolge, die die maximalen Aktivierungswerte in nachfolgenden Tokens minimiert. Dann stimmen wir den Token-Cache weiter ab, um die Aktivierungen nachfolgender Tokens quantisierungsfreundlicher zu gestalten. Die vorgeschlagene Methode adressiert erfolgreich die Aktivierungs-Outlier von großen Sprachmodellen und bietet einen erheblichen Leistungszuwachs für Methoden der Aktivierungsquantisierung pro Tensor. Wir evaluieren unsere Methode umfassend über ein breites Spektrum an Modellen und Benchmarks und stellen fest, dass sie die etablierte Basislinie der quantisierung pro Tensor W8A8 deutlich übertrifft und nahtlos mit der jüngsten Methode zur Aktivierungsquantisierung integriert werden kann.

Vorfahren von Attention Sinks können Aktivierungs-Outlier bei der Quantisierung großer Sprachmodelle mildern

Key Points

Abstract

Cite This Study

Also Consider

Also Consider