Los avances recientes en Modelos de Lenguaje Grande Multimodal (MLLMs) han mejorado su versatilidad a medida que integran un número creciente de modalidades. Considerando el alto costo de entrenar MLLMs, es necesario reutilizar los existentes y ampliar aún más las modalidades a través del Aprendizaje Continuo Incremental de Modalidades (MCL). Sin embargo, esto a menudo conlleva una degradación en el rendimiento de las modalidades aprendidas previamente. En este trabajo, revisamos el MCL e investigamos un problema más severo que enfrenta en contraste con el aprendizaje continuo tradicional, que su degradación no solo proviene del olvido catastrófico, sino también de la desalineación entre los componentes agnósticos a la modalidad y específicos de la modalidad. Para abordar este problema, proponemos un paradigma de MCL elegantemente simple llamado "MErge then ReAlign" (MERA). Nuestro método evita introducir un alto sobrecosto de entrenamiento o modificar la arquitectura del modelo, por lo tanto, es fácil de implementar y altamente reutilizable en la comunidad de MLLM. Experimentos extensivos demuestran que, a pesar de la simplicidad de MERA, muestra un rendimiento impresionante, manteniendo hasta un 99.84% de Ganancia Relativa Hacia Atrás al extenderse a cuatro modalidades, logrando un rendimiento de MCL casi sin pérdidas.
Zhang et al. (Sat,) estudiaron esta cuestión.