June 3, 2024Open Access

VIP: Pintura de Imágenes Versátil Potenciada por un Modelo de Lenguaje Grande Multimodal

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En este artículo, nos enfocamos en resolver el problema de la pintura de imágenes, que tiene como objetivo extrapolar las partes circundantes dadas las contenidos centrales de una imagen. Aunque trabajos recientes han logrado un rendimiento prometedor, la falta de versatilidad y personalización limita sus aplicaciones prácticas en escenarios más amplios. Por lo tanto, este trabajo presenta un nuevo marco de pintura de imágenes que es capaz de personalizar los resultados según los requisitos de los usuarios. Primero que todo, aprovechamos un Modelo de Lenguaje Grande Multimodal (MLLM) que extrae y organiza automáticamente las descripciones textuales correspondientes de las partes enmascaradas y no enmascaradas de una imagen dada. En consecuencia, los textos obtenidos se introducen para dotar a nuestro modelo de la capacidad de personalizar los resultados de la pintura. Además, se ha diseñado un módulo especial de Atención Cruzada, denominado Centro-Total-Alrededor (CTS), para mejorar aún más la interacción entre regiones específicas del espacio de la imagen y las partes correspondientes de los textos. Cabe destacar que, a diferencia de la mayoría de los métodos existentes, nuestro enfoque es muy eficiente en recursos, ya que solo se ajusta ligeramente al modelo de difusión estable (SD) en lugar de ser entrenado desde cero. Finalmente, los resultados experimentales en tres conjuntos de datos comúnmente utilizados, es decir, Paisaje, Edificio, y WikiArt, demuestran que nuestro modelo supera significativamente los métodos SoTA. Además, se presentan resultados de pintura versátiles para mostrar su capacidad de personalización.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo