What type of study is this?

This is a Quantitative Study study.

October 19, 2025Open Access

GLAD: Ajuste Generalizable para Modelos de Visión-Lenguaje

Puntos clave

El marco GLAD muestra una mejorada generalización en modelos de visión-lenguaje con menos puntos de datos de entrenamiento.
Usando 15 conjuntos de datos de referencia, GLAD superó significativamente a los métodos de ajuste existentes en varias tareas de generalización.
La regularización basada en gradientes ayuda a GLAD a mitigar el sobreajuste en escenarios de aprendizaje de pocos disparos.
La aplicación de LoRA dentro de GLAD logra resultados comparables a los métodos de ajuste por indicaciones de última generación.

Resumen

Los modelos de visión-lenguaje preentrenados, como CLIP, muestran una impresionante capacidad de reconocimiento en cero disparos y pueden ser fácilmente transferidos a tareas específicas aguas abajo a través del ajuste por indicaciones, incluso con datos de entrenamiento limitados. Sin embargo, los métodos de ajuste por indicaciones existentes enfrentan dos desafíos principales: (1) En escenarios de pocos disparos, la escasez de datos a menudo conduce al sobreajuste, haciendo que el modelo sea sensible a los cambios en el dominio de entrada. (2) Para mitigar el sobreajuste, estos métodos generalmente dependen de arquitecturas de modelo específicas para tareas complejas y del ajuste sensible de hiperparámetros, lo que restringe severamente su aplicabilidad general. Para abordar estos problemas, proponemos un marco más simple y general llamado GLAD (Ajuste LoRA Generalizable con Gradiente Regulizado). Demostramos que aplicar simplemente LoRA logra un desempeño en tareas aguas abajo comparable a los actuales métodos basados en indicaciones de última generación. Aunque LoRA es efectivo y fácil de usar, sigue siendo susceptible al sobreajuste en escenarios de aprendizaje de pocos disparos. Para mitigar este riesgo, introducimos una técnica de regularización basada en gradientes. Esta técnica orienta efectivamente la trayectoria de optimización, alentando al modelo a encontrar una región de parámetros más estable que sea robusta a variaciones en la distribución de datos. A través de extensos experimentos realizados en 15 conjuntos de datos de referencia, demostramos que GLAD supera enfoques anteriores de ajuste en términos de generalización de clase base a nueva, generalización de dominio de imagen y generalización cruzada de conjuntos de datos. El código estará disponible públicamente.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo