Los puntos clave no están disponibles para este artículo en este momento.
El ajuste de instrucciones, o el ajuste supervisado en un extenso conjunto de datos específicos de tareas, es necesario para que los Modelos Grandes de Visión-Lenguaje (LVLMs) generalicen bien en una amplia gama de tareas de visión-lenguaje (VL). Sin embargo, entrenar en grandes conjuntos de datos de VL puede volverse prohibitivamente caro. En este trabajo, introducimos COINCIDE, una técnica de selección de datos efectiva y escalable que utiliza un modelo pequeño como modelo de referencia para seleccionar datos de ajuste de instrucciones visuales para el ajuste eficiente de un LVLM objetivo, enfocándose en la diversidad y la transferibilidad. Específicamente, agrupamos los datos de entrenamiento utilizando las activaciones internas de un modelo pequeño, que identifica las composiciones de concepto-habilidad de VL necesarias por un LVLM objetivo. Luego, muestreamos datos de estos grupos diversos considerando su densidad y transferibilidad, o la capacidad de transferirse bien a otras composiciones de concepto-habilidad. Este enfoque asegura la diversidad de estas composiciones, que es vital para la generalización de los LVLM. Experimentos extensivos demuestran que COINCIDE logra un rendimiento superior y eficiencia en la selección de datos en comparación con 8 fuertes baselines en dos conjuntos de datos distintos: LLaVA-1.5 y Vision-Flan. Usando solo el 20% del conjunto de datos de LLaVA-1.5, COINCIDE logra un rendimiento comparable al LVLM ajustado en el conjunto de datos completo, con una reducción del 70% en el tiempo de ejecución. En el conjunto de datos de Vision-Flan, nuestro método logra resultados superiores con solo el 16.7% de los datos de entrenamiento.
Lee et al. (Sun,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: