Los puntos clave no están disponibles para este artículo en este momento.
A medida que aumenta la demanda de modelos de lenguaje grande (LLMs) con contextos largos, los modelos con ventanas de contexto de hasta 128K o 1M de tokens son cada vez más prevalentes. Sin embargo, la inferencia de LLM de contexto largo es un desafío, ya que la velocidad de inferencia disminuye significativamente a medida que aumenta la longitud de la secuencia. Esta desaceleración es causada principalmente por la carga de un gran caché KV durante la autoatención. Trabajos previos han demostrado que una pequeña porción de tokens críticos dominará los resultados de atención. Sin embargo, observamos que la criticidad de un token depende en gran medida de la consulta. Con este fin, proponemos Quest, un algoritmo de selección de caché KV consciente de la consulta. Quest realiza un seguimiento de los valores Clave mínimos y máximos en las páginas de caché KV y estima la criticidad de una página dada utilizando vectores de consulta. Al cargar solo las páginas de caché KV críticas Top-K para la atención, Quest acelera significativamente la autoatención sin sacrificar la precisión. Mostramos que Quest puede lograr hasta 2.23x de aceleración de autoatención, lo que reduce la latencia de inferencia en 7.03x mientras se desempeña bien en tareas con largas dependencias con una pérdida de precisión negligible. El código está disponible en http://github.com/mit-han-lab/Quest.
Tang et al. (Sat,) estudiaron esta cuestión.