Los Modelos de Lenguaje Grandes (LLMs) han demostrado capacidades notables en el Aprendizaje en Contexto (ICL). Sin embargo, las limitaciones fijas en la longitud de posición en modelos preentrenados restringen el número de ejemplos de demostración. Esfuerzos recientes para extender el contexto sufren de dispersión de la atención a medida que aumenta el número de demostraciones. En este artículo, introducimos Mitigating Attention Dispersion en ICL a gran escala (MateICL) que permite a los LLMs mantener una auto-atención efectiva conforme crece el tamaño del contexto. Primero, dividimos el contexto en múltiples ventanas, cada una llenada hasta la capacidad de contexto del modelo, que son procesadas por separado. Luego, introducimos una capa adicional para recalibrar los pesos de atención, priorizando los tokens de consulta a medida que crece el número de demostraciones. Nuestros resultados empíricos muestran que MateICL puede aprovechar contextos más grandes para mejorar el rendimiento de ICL. Comparado con líneas base basadas en recuperación, MateICL consistentemente logra mejor rendimiento sin requerir un modelo de recuperación entrenado externamente. A pesar de avances recientes en estrategias de inferencia (por ejemplo, contextos de 32k tokens), nuestros resultados demuestran que MateICL sigue siendo beneficioso en entornos con recursos computacionales limitados. El código está disponible públicamente en https://github.com/amurtadha/MateICL.
Ahmed et al. (Fri,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: