Los puntos clave no están disponibles para este artículo en este momento.
Los avances recientes en la generación de texto a imagen han sido impulsados por el desarrollo de modelos de difusión y aprendizaje multimodal. Sin embargo, dado que el texto se representa típicamente de manera secuencial en estos modelos, a menudo no logra proporcionar una contextualización y control estructural precisos. Por lo tanto, las imágenes generadas no se alinean consistentemente con las expectativas humanas, especialmente en escenarios complejos que involucran múltiples objetos y relaciones. En este documento, presentamos el Adaptador de Grafo de Escena (SG-Adapter), aprovechando la representación estructurada de los grafos de escena para rectificar las inexactitudes en las incrustaciones de texto originales. La representación gráfica explícita y no completamente conectada del SG-Adapter mejora en gran medida las representaciones de texto basadas en transformadores y completamente conectadas. Esta mejora es particularmente notable en la mantención de una correspondencia precisa en escenarios que involucran múltiples relaciones. Para abordar los desafíos planteados por conjuntos de datos anotados de baja calidad como Visual Genome, hemos curado manualmente un conjunto de datos emparejados de grafo de escena-imagen, altamente limpio y multirrelacional llamado MultiRels. Además, diseñamos tres métricas derivadas de GPT-4V para medir de manera efectiva y exhaustiva la correspondencia entre imágenes y grafos de escena. Tanto los resultados cualitativos como cuantitativos validan la eficacia de nuestro enfoque en el control de la correspondencia en múltiples relaciones.
Shen et al. (Vie,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: