Los puntos clave no están disponibles para este artículo en este momento.
En este estudio, investigamos si el flujo de información basado en atención dentro de los modelos de lenguaje grandes (LLMs) se agrega a través de patrones notables para el procesamiento de contextos largos. Nuestras observaciones revelan que los LLMs agregan información a través del embudo de información piramidal, donde la atención se dispersa ampliamente en capas inferiores, consolidándose progresivamente dentro de contextos específicos y, en última instancia, enfocándose en tokens críticos (también conocidos como activación masiva o sumidero de atención) en capas superiores. Motivados por estas ideas, desarrollamos PyramidKV, un método novedoso y efectivo de compresión de caché KV. Este enfoque ajusta dinámicamente el tamaño de la caché KV a través de diferentes capas, asignando más caché en capas inferiores y menos en capas superiores, desviándose de métodos tradicionales que mantienen un tamaño uniforme de caché KV. Nuestras evaluaciones experimentales, utilizando el banco de pruebas LongBench, muestran que PyramidKV iguala el rendimiento de los modelos con una caché KV completa mientras retiene solo el 12% de la caché KV, reduciendo así significativamente el uso de memoria. En escenarios que enfatizan la eficiencia de la memoria, donde solo se mantiene el 0.7% de la caché KV, PyramidKV supera otras técnicas de compresión de caché KV logrando hasta un 20.5 de mejora absoluta en precisión en TREC.
Cai et al. (Tue,) estudiaron esta pregunta.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: