Los puntos clave no están disponibles para este artículo en este momento.
La cuantificación puede acelerar la inferencia de modelos de lenguaje grandes (LLM). Más allá de la cuantificación INT8, la comunidad de investigación está explorando activamente precisiones aún más bajas, como INT4. Sin embargo, las técnicas de cuantificación INT4 de vanguardia solo aceleran la inferencia de LLM en lotes pequeños y en el borde, sin lograr mejoras en el rendimiento durante el servicio de LLM en lotes grandes y basados en la nube. Descubrimos un problema crítico: los métodos de cuantificación INT4 existentes sufren de una sobrecarga de tiempo de ejecución significativa (20-90%) al desquantificar ya sea pesos o sumas parciales en GPU. Para abordar este desafío, introducimos QoQ, un algoritmo de cuantificación W4A8KV4 con peso de 4 bits, activación de 8 bits y caché KV de 4 bits. QoQ significa quattuor-octo-quattuor, que representa 4-8-4 en latín. QoQ está implementado por la biblioteca de inferencia QServe, que logra una aceleración medida. La clave que impulsa QServe es que la eficiencia del servicio de LLM en GPU está influenciada críticamente por las operaciones en núcleos CUDA de bajo rendimiento. Basándonos en este insight, en el algoritmo QoQ, introducimos cuantificación progresiva que puede permitir una baja sobrecarga de desquantificación en GEMM W4A8. Además, desarrollamos SmoothAttention para mitigar efectivamente la degradación de precisión incurrida por la cuantificación KV de 4 bits. En el sistema QServe, realizamos un reordenamiento de pesos consciente de la computación y aprovechamos el paralelismo a nivel de registro para reducir la latencia de desquantificación. También hacemos que la atención fusionada sea dependiente de memoria, aprovechando la mejora de rendimiento que brinda la cuantificación KV4. Como resultado, QServe mejora el rendimiento máximo alcanzable para el servicio de Llama-3-8B en 1.2x en A100, 1.4x en L40S; y Qwen1.5-72B en 2.4x en A100, 3.5x en L40S, en comparación con TensorRT-LLM. Notablemente, QServe en la GPU L40S puede lograr un rendimiento aún mayor que TensorRT-LLM en A100. Por lo tanto, QServe reduce efectivamente el costo en dólares del servicio de LLM en 3x. El código está disponible en https://github.com/mit-han-lab/qserve.
Lin et al. (Martes,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: