What type of study is this?

This is a Experimental Study study.

October 3, 2025Open Access

MateICL: Mitigando la Dispersión de la Atención en el Aprendizaje en Contexto a Gran Escala

Puntos clave

MateICL mejora efectivamente el rendimiento en aprendizaje en contexto mientras gestiona la dispersión de la atención.
Resultados empíricos indican que MateICL supera a líneas base basadas en recuperación en varios benchmarks.
El enfoque implica dividir ventanas de contexto, garantizando un procesamiento eficiente de conjuntos de datos más grandes.
MateICL muestra beneficios sustanciales en entornos con recursos computacionales limitados, apoyando la escalabilidad.

Resumen

Los Modelos de Lenguaje Grandes (LLMs) han demostrado capacidades notables en el Aprendizaje en Contexto (ICL). Sin embargo, las limitaciones fijas en la longitud de posición en modelos preentrenados restringen el número de ejemplos de demostración. Esfuerzos recientes para extender el contexto sufren de dispersión de la atención a medida que aumenta el número de demostraciones. En este artículo, introducimos Mitigating Attention Dispersion en ICL a gran escala (MateICL) que permite a los LLMs mantener una auto-atención efectiva conforme crece el tamaño del contexto. Primero, dividimos el contexto en múltiples ventanas, cada una llenada hasta la capacidad de contexto del modelo, que son procesadas por separado. Luego, introducimos una capa adicional para recalibrar los pesos de atención, priorizando los tokens de consulta a medida que crece el número de demostraciones. Nuestros resultados empíricos muestran que MateICL puede aprovechar contextos más grandes para mejorar el rendimiento de ICL. Comparado con líneas base basadas en recuperación, MateICL consistentemente logra mejor rendimiento sin requerir un modelo de recuperación entrenado externamente. A pesar de avances recientes en estrategias de inferencia (por ejemplo, contextos de 32k tokens), nuestros resultados demuestran que MateICL sigue siendo beneficioso en entornos con recursos computacionales limitados. El código está disponible públicamente en https://github.com/amurtadha/MateICL.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo