Key points are not available for this paper at this time.
Dans ce travail, nous montrons que le compromis taille versus précision dans la quantification des réseaux neuronaux peut être significativement amélioré en augmentant la dimensionalité de la quantification. Nous proposons la méthode GPTVQ, une nouvelle méthode rapide de quantification vectorielle (VQ) post-entraînement qui s'adapte bien aux grands modèles de langage (LLMs). Notre méthode entrelace la quantification d'une ou plusieurs colonnes avec des mises à jour des poids non quantifiés restants, en utilisant l'information provenant du Hessien de l'erreur quadratique moyenne (MSE) de reconstruction de sortie par couche. Les codebooks de quantification sont initialisés en utilisant une version efficace et adaptée aux données de l'algorithme EM. Les codebooks sont ensuite mis à jour et compressés davantage en utilisant la quantification entière et une compression basée sur la SVD. GPTVQ établit un nouvel état de l'art dans les compromis taille vs précision sur une large gamme de LLMs tels que Llama-v2 et Mistral. De plus, notre méthode est efficace : sur un seul H100, elle met entre 3 et 11 heures pour traiter un modèle Llama-v2-70B, selon le paramétrage de la quantification. Enfin, avec des mesures d'exécution sur appareil pour la décompression VQ sur un CPU mobile, nous montrons que VQ améliore la latence comparée à l'utilisation d'un format entier 4 bits.
Baalen et al. (ven.) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: