What question did this study set out to answer?

Mejorar la eficiencia y efectividad de la sintonización de instrucciones en modelos de lenguaje grandes optimizando los procesos de selección de datos.

March 21, 2026

LEAD: Selección de Datos Iterativa para la Sintonización Eficiente de Instrucciones de LLM

Puntos clave

Mejorar la eficiencia y efectividad de la sintonización de instrucciones en modelos de lenguaje grandes optimizando los procesos de selección de datos.
Marco LEAD propuesto para la selección de datos dentro del bucle de entrenamiento.
Introducción de la Incertidumbre Dinámica a Nivel de Instancia (IDU) para estimar la utilidad de la muestra.
Implementada una estrategia de selección en dos etapas utilizando un mecanismo de bandido de múltiples brazos.
LEAD mejoró el rendimiento del modelo en un 6.1%-10.8% sobre los métodos existentes.
Utilizó solo el 2.5% de los datos de entrenamiento.
Redujo el tiempo total de entrenamiento en 5–10 veces.

Resumen

La sintonización de instrucciones ha emergido como un paradigma crítico para mejorar las capacidades y la alineación de los modelos de lenguaje grandes (LLMs). Sin embargo, los métodos existentes de selección de datos iterativa conscientes del modelo incurren en una sobrecarga computacional significativa, ya que dependen de realizar repetidamente inferencias sobre el modelo utilizando el conjunto de datos completo para estimar la utilidad de las muestras para las iteraciones de entrenamiento subsiguientes. En este documento, proponemos LEAD, un marco que aprende a seleccionar datos de manera iterativa al estimar con precisión la utilidad de la muestra completamente dentro del bucle de entrenamiento estándar, eliminando la necesidad de inferencias adicionales del modelo. En su núcleo, LEAD introduce la Incertidumbre Dinámica a Nivel de Instancia (IDU), una función de utilidad teóricamente fundamentada que combina la pérdida de entrenamiento instantánea, la aproximación basada en gradientes de los cambios en la pérdida, y el suavizado exponencial de las señales de pérdida históricas. Para escalar de manera eficiente a conjuntos de datos grandes, LEAD emplea una estrategia de selección en dos etapas, de grueso a fino, priorizando adaptativamente clústeres informativos mediante un mecanismo de bandido de múltiples brazos, seguido de una selección precisa y detallada de muestras de alta utilidad utilizando IDU. Experimentos extensos a través de cuatro benchmarks diversos muestran que LEAD supera significativamente a los métodos de última generación, mejorando el rendimiento promedio del modelo en un 6.1%-10.8% mientras utiliza solo el 2.5% de los datos de entrenamiento y reduce el tiempo total de entrenamiento en un factor de 5–10.

Me gusta

Guardar