Los puntos clave no están disponibles para este artículo en este momento.
Los modelos recientes de generación de imágenes a partir de texto pueden producir imágenes de alta calidad a partir de indicaciones textuales. Sin embargo, es difícil interpretar correctamente las instrucciones que especifican imágenes complejas con múltiples objetos utilizando solo texto. Para resolver este problema, proponemos un control espacial guiado por bocetos para modelos de difusión de texto a imagen. En la etapa de extracción de características del marco propuesto, las entradas de boceto se segmentan en objetos individuales utilizando el enfoque de segmentación de imágenes. Las cajas delimitadoras y etiquetas obtenidas se utilizan como entradas guiadas espacialmente en las capas de atención del modelo de difusión. Para la etapa de generación de imágenes, el modelo propuesto utiliza un modelo de difusión de texto a imagen preentrenado como generador de imágenes. Evaluamos el método propuesto a través de evaluaciones cuantitativas y cualitativas, demostrando su versatilidad en el control espacial basado en bocetos de usuario.
Zhang et al. (Vie,) estudiaron esta cuestión.