What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

September 23, 2025Open Access

C2-Evo: Co-evolucionando Datos Multimodales y Modelos para el Razonamiento Auto-Mejorado

Puntos clave

C2-Evo mejora los modelos y conjuntos de datos multimodales, logrando mejoras significativas en tareas de razonamiento.
El marco utiliza un bucle de evolución de datos cruzados que combina problemas textuales y visuales estructurados.
La selección adaptativa de problemas generados basada en el rendimiento del modelo mejora el ajuste fino supervisado y el aprendizaje.
Este enfoque auto-mejorador aborda la complejidad desiguala en la evolución de datos y modelos, mejorando el rendimiento general.

Resumen

Los recientes avances en modelos de lenguaje multimodal grandes (MLLMs) han mostrado capacidades de razonamiento impresionantes. Sin embargo, mejorar aún más los MLLMs existentes requiere conjuntos de datos de visión-lenguaje de alta calidad con complejidades de tarea cuidadosamente seleccionadas, lo cual es costoso y difícil de escalar. Aunque los recientes modelos auto-mejorados que se refinan iterativamente ofrecen una solución viable, aún enfrentan dos desafíos fundamentales: (i) la mayoría de los métodos existentes aumentan los datos visuales o textuales por separado, lo que resulta en discrepancias en la complejidad de los datos (por ejemplo, diagramas excesivamente simplificados emparejados con descripciones textuales redundantes); y (ii) la evolución de los datos y los modelos también está separada, llevando a escenarios donde los modelos son expuestos a tareas con niveles de dificultad desiguales. Para abordar estos problemas, proponemos C2-Evo, un marco automático de auto-mejoramiento en bucle cerrado que evoluciona conjuntamente tanto los datos de entrenamiento como las capacidades del modelo. Específicamente, dado un conjunto de datos base y un modelo base, C2-Evo los mejora mediante un bucle de evolución de datos cruzados y un bucle de evolución de datos-modelo. El primer bucle expande el conjunto de datos base generando problemas multimodales complejos que combinan sub-problemas textuales estructurados con diagramas geométricos especificados iterativamente, mientras que el segundo bucle selecciona adaptativamente los problemas generados en función del rendimiento del modelo base, para realizar un ajuste fino supervisado y aprendizaje por refuerzo de manera alterna. En consecuencia, nuestro método refina continuamente su modelo y datos de entrenamiento, y obtiene consistentemente ganancias de rendimiento considerables en múltiples bancos de pruebas de razonamiento matemático. Nuestro código, modelos y conjuntos de datos serán publicados.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo