May 9, 2024Open Access

LLM-QBench : Un Benchmark vers la Meilleure Pratique pour la Quantification Post-formation des Grands Modèles de Langage

Key Points

Key points are not available for this paper at this time.

Abstract

Les avancées récentes dans les grands modèles de langage (LLMs) nous propulsent vers une intelligence artificielle générale, grâce à leurs capacités émergentes remarquables et leurs compétences en raisonnement. Cependant, les exigences substantielles en matière de calcul et de mémoire des LLMs limitent leur adoption généralisée. La quantification, une technique de compression clé, offre une solution viable pour atténuer ces exigences en compressant et en accélérant les LLMs, bien qu'avec des risques potentiels pour la précision du modèle. De nombreuses études ont visé à minimiser la perte de précision associée à la quantification. Cependant, les configurations de quantification dans ces études varient et peuvent ne pas être optimisées pour la compatibilité matérielle. Dans cet article, nous nous concentrons sur l'identification des pratiques les plus efficaces pour quantifier les LLMs, avec pour objectif d'équilibrer la performance et l'efficacité computationnelle. Pour une analyse équitable, nous développons un outil de quantification LLMC et concevons quatre principes cruciaux tenant compte de l'efficacité d'inférence, de la précision quantifiée, du coût de calibration et de la modularisation. En benchmarkant sur divers modèles et ensembles de données avec plus de 500 expériences, trois enseignements correspondant aux données de calibration, à l'algorithme de quantification et aux schémas de quantification sont dérivés. Enfin, une meilleure pratique du pipeline LLM PTQ est construite. Tous les résultats des benchmarks et l'outil peuvent être trouvés sur https://github.com/ModelTC/llmc.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper