Los puntos clave no están disponibles para este artículo en este momento.
La creación de conjuntos de datos de imágenes con leyendas etiquetadas por humanos de alta calidad presenta un cuello de botella significativo en el desarrollo de Modelos de Lenguaje-Visual (VLMs). Proponemos un enfoque novedoso que aprovecha las fortalezas de los Modelos de Lenguaje Grande (LLMs) y los modelos de generación de imágenes para crear pares de imagen-texto sintéticos para un entrenamiento eficiente y efectivo de VLM. Nuestro método emplea la preentrenación de un modelo de texto a imagen para sintetizar embeddings de imagen a partir de leyendas generadas por un LLM. Estos pares sintéticos se utilizan luego para entrenar un VLM. Amplios experimentos demuestran que el VLM entrenado con datos sintéticos exhibe un rendimiento comparable en la generación de leyendas de imágenes, mientras que requiere una fracción de los datos utilizados por los modelos entrenados únicamente con datos anotados por humanos. En particular, superamos la línea base en un 17% mediante la augmentación con un conjunto de datos sintéticos. Además, mostramos que sintetizar en el espacio de embeddings de imagen es un 25% más rápido que en el espacio de píxeles. Esta investigación introduce una técnica prometedora para generar conjuntos de datos de imágenes personalizables a gran escala, llevando a un mejor rendimiento de VLM y una mayor aplicabilidad en varios dominios, todo con mejor eficiencia de datos y uso de recursos.
Sharifzadeh et al. (Martes,) estudiaron esta pregunta.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: