What type of study is this?

This is a Experimental Study study.

September 28, 2025Open Access

Fusionar y Luego Realinear: Aprendizaje Continuo Incremental de Modalidades Simple y Efectivo para LLMs Multimodales

Puntos clave

MERA logra hasta un 99.84% de ganancia relativa hacia atrás al extender modalidades en modelos de lenguaje grande multimodal.
El enfoque aborda efectivamente los problemas de degradación del rendimiento causados por el olvido catastrófico y la desalineación.
MERA se implementa sin un alto sobrecosto de entrenamiento o cambios en la arquitectura del modelo, lo que hace que sea fácilmente implementable.
Experimentos extensivos validan que MERA mantiene un alto rendimiento en el aprendizaje continuo a través de cuatro modalidades.

Resumen

Los avances recientes en Modelos de Lenguaje Grande Multimodal (MLLMs) han mejorado su versatilidad a medida que integran un número creciente de modalidades. Considerando el alto costo de entrenar MLLMs, es necesario reutilizar los existentes y ampliar aún más las modalidades a través del Aprendizaje Continuo Incremental de Modalidades (MCL). Sin embargo, esto a menudo conlleva una degradación en el rendimiento de las modalidades aprendidas previamente. En este trabajo, revisamos el MCL e investigamos un problema más severo que enfrenta en contraste con el aprendizaje continuo tradicional, que su degradación no solo proviene del olvido catastrófico, sino también de la desalineación entre los componentes agnósticos a la modalidad y específicos de la modalidad. Para abordar este problema, proponemos un paradigma de MCL elegantemente simple llamado "MErge then ReAlign" (MERA). Nuestro método evita introducir un alto sobrecosto de entrenamiento o modificar la arquitectura del modelo, por lo tanto, es fácil de implementar y altamente reutilizable en la comunidad de MLLM. Experimentos extensivos demuestran que, a pesar de la simplicidad de MERA, muestra un rendimiento impresionante, manteniendo hasta un 99.84% de Ganancia Relativa Hacia Atrás al extenderse a cuatro modalidades, logrando un rendimiento de MCL casi sin pérdidas.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo