Key points are not available for this paper at this time.
Les avancées récentes dans les grands modèles de langage (LLMs) nous propulsent vers une intelligence artificielle générale, grâce à leurs capacités émergentes remarquables et leurs compétences en raisonnement. Cependant, les exigences substantielles en matière de calcul et de mémoire des LLMs limitent leur adoption généralisée. La quantification, une technique de compression clé, offre une solution viable pour atténuer ces exigences en compressant et en accélérant les LLMs, bien qu'avec des risques potentiels pour la précision du modèle. De nombreuses études ont visé à minimiser la perte de précision associée à la quantification. Cependant, les configurations de quantification dans ces études varient et peuvent ne pas être optimisées pour la compatibilité matérielle. Dans cet article, nous nous concentrons sur l'identification des pratiques les plus efficaces pour quantifier les LLMs, avec pour objectif d'équilibrer la performance et l'efficacité computationnelle. Pour une analyse équitable, nous développons un outil de quantification LLMC et concevons quatre principes cruciaux tenant compte de l'efficacité d'inférence, de la précision quantifiée, du coût de calibration et de la modularisation. En benchmarkant sur divers modèles et ensembles de données avec plus de 500 expériences, trois enseignements correspondant aux données de calibration, à l'algorithme de quantification et aux schémas de quantification sont dérivés. Enfin, une meilleure pratique du pipeline LLM PTQ est construite. Tous les résultats des benchmarks et l'outil peuvent être trouvés sur https://github.com/ModelTC/llmc.
Gong et al. (Jeudi,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: