Los recientes avances en modelos de lenguaje multimodal grandes (MLLMs) han mostrado capacidades de razonamiento impresionantes. Sin embargo, mejorar aún más los MLLMs existentes requiere conjuntos de datos de visión-lenguaje de alta calidad con complejidades de tarea cuidadosamente seleccionadas, lo cual es costoso y difícil de escalar. Aunque los recientes modelos auto-mejorados que se refinan iterativamente ofrecen una solución viable, aún enfrentan dos desafíos fundamentales: (i) la mayoría de los métodos existentes aumentan los datos visuales o textuales por separado, lo que resulta en discrepancias en la complejidad de los datos (por ejemplo, diagramas excesivamente simplificados emparejados con descripciones textuales redundantes); y (ii) la evolución de los datos y los modelos también está separada, llevando a escenarios donde los modelos son expuestos a tareas con niveles de dificultad desiguales. Para abordar estos problemas, proponemos C2-Evo, un marco automático de auto-mejoramiento en bucle cerrado que evoluciona conjuntamente tanto los datos de entrenamiento como las capacidades del modelo. Específicamente, dado un conjunto de datos base y un modelo base, C2-Evo los mejora mediante un bucle de evolución de datos cruzados y un bucle de evolución de datos-modelo. El primer bucle expande el conjunto de datos base generando problemas multimodales complejos que combinan sub-problemas textuales estructurados con diagramas geométricos especificados iterativamente, mientras que el segundo bucle selecciona adaptativamente los problemas generados en función del rendimiento del modelo base, para realizar un ajuste fino supervisado y aprendizaje por refuerzo de manera alterna. En consecuencia, nuestro método refina continuamente su modelo y datos de entrenamiento, y obtiene consistentemente ganancias de rendimiento considerables en múltiples bancos de pruebas de razonamiento matemático. Nuestro código, modelos y conjuntos de datos serán publicados.
Chen et al. (Tue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: