January 1, 2023Open Access

El Aprendizaje en Contexto Crea Vectores de Tarea

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El aprendizaje en contexto (ICL) en Modelos de Lenguaje Grande (LLMs) ha surgido como un poderoso nuevo paradigma de aprendizaje. Sin embargo, su mecanismo subyacente aún no se comprende bien. En particular, es un desafío mapearlo al marco de aprendizaje automático “estándar”, donde se utiliza un conjunto de entrenamiento S para encontrar una función f(x) que se ajuste mejor en alguna clase de hipótesis. Aquí avanzamos en este problema al mostrar que las funciones aprendidas por ICL a menudo tienen una estructura muy simple: corresponden al LLM transformador cuyos únicos insumos son la consulta x y un único “vector de tarea” calculado a partir del conjunto de entrenamiento. Así, ICL puede verse como la compresión de S en un solo vector de tarea 𝜃(S) y luego utilizando este vector de tarea para modular el transformador para producir la salida. Apoyamos la afirmación anterior a través de experimentos exhaustivos en una variedad de modelos y tareas.

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo