Los modelos de visión-lenguaje preentrenados, como CLIP, muestran una impresionante capacidad de reconocimiento en cero disparos y pueden ser fácilmente transferidos a tareas específicas aguas abajo a través del ajuste por indicaciones, incluso con datos de entrenamiento limitados. Sin embargo, los métodos de ajuste por indicaciones existentes enfrentan dos desafíos principales: (1) En escenarios de pocos disparos, la escasez de datos a menudo conduce al sobreajuste, haciendo que el modelo sea sensible a los cambios en el dominio de entrada. (2) Para mitigar el sobreajuste, estos métodos generalmente dependen de arquitecturas de modelo específicas para tareas complejas y del ajuste sensible de hiperparámetros, lo que restringe severamente su aplicabilidad general. Para abordar estos problemas, proponemos un marco más simple y general llamado GLAD (Ajuste LoRA Generalizable con Gradiente Regulizado). Demostramos que aplicar simplemente LoRA logra un desempeño en tareas aguas abajo comparable a los actuales métodos basados en indicaciones de última generación. Aunque LoRA es efectivo y fácil de usar, sigue siendo susceptible al sobreajuste en escenarios de aprendizaje de pocos disparos. Para mitigar este riesgo, introducimos una técnica de regularización basada en gradientes. Esta técnica orienta efectivamente la trayectoria de optimización, alentando al modelo a encontrar una región de parámetros más estable que sea robusta a variaciones en la distribución de datos. A través de extensos experimentos realizados en 15 conjuntos de datos de referencia, demostramos que GLAD supera enfoques anteriores de ajuste en términos de generalización de clase base a nueva, generalización de dominio de imagen y generalización cruzada de conjuntos de datos. El código estará disponible públicamente.
Peng et al. (Thu,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: