Los puntos clave no están disponibles para este artículo en este momento.
El aprendizaje en contexto (ICL) en Modelos de Lenguaje Grande (LLMs) ha surgido como un poderoso nuevo paradigma de aprendizaje. Sin embargo, su mecanismo subyacente aún no se comprende bien. En particular, es un desafío mapearlo al marco de aprendizaje automático “estándar”, donde se utiliza un conjunto de entrenamiento S para encontrar una función f(x) que se ajuste mejor en alguna clase de hipótesis. Aquí avanzamos en este problema al mostrar que las funciones aprendidas por ICL a menudo tienen una estructura muy simple: corresponden al LLM transformador cuyos únicos insumos son la consulta x y un único “vector de tarea” calculado a partir del conjunto de entrenamiento. Así, ICL puede verse como la compresión de S en un solo vector de tarea 𝜃(S) y luego utilizando este vector de tarea para modular el transformador para producir la salida. Apoyamos la afirmación anterior a través de experimentos exhaustivos en una variedad de modelos y tareas.
Hendel et al. (Sun,) estudiaron esta pregunta.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: