La sintonización de instrucciones ha emergido como un paradigma crítico para mejorar las capacidades y la alineación de los modelos de lenguaje grandes (LLMs). Sin embargo, los métodos existentes de selección de datos iterativa conscientes del modelo incurren en una sobrecarga computacional significativa, ya que dependen de realizar repetidamente inferencias sobre el modelo utilizando el conjunto de datos completo para estimar la utilidad de las muestras para las iteraciones de entrenamiento subsiguientes. En este documento, proponemos LEAD, un marco que aprende a seleccionar datos de manera iterativa al estimar con precisión la utilidad de la muestra completamente dentro del bucle de entrenamiento estándar, eliminando la necesidad de inferencias adicionales del modelo. En su núcleo, LEAD introduce la Incertidumbre Dinámica a Nivel de Instancia (IDU), una función de utilidad teóricamente fundamentada que combina la pérdida de entrenamiento instantánea, la aproximación basada en gradientes de los cambios en la pérdida, y el suavizado exponencial de las señales de pérdida históricas. Para escalar de manera eficiente a conjuntos de datos grandes, LEAD emplea una estrategia de selección en dos etapas, de grueso a fino, priorizando adaptativamente clústeres informativos mediante un mecanismo de bandido de múltiples brazos, seguido de una selección precisa y detallada de muestras de alta utilidad utilizando IDU. Experimentos extensos a través de cuatro benchmarks diversos muestran que LEAD supera significativamente a los métodos de última generación, mejorando el rendimiento promedio del modelo en un 6.1%-10.8% mientras utiliza solo el 2.5% de los datos de entrenamiento y reduce el tiempo total de entrenamiento en un factor de 5–10.
Lin et al. (Sat,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: