Los puntos clave no están disponibles para este artículo en este momento.
En este artículo, proponemos una Red Generativa Antagónica Atencional (AttnGAN) que permite un refinamiento de múltiples etapas impulsado por la atención para la generación de imágenes a partir de texto de grano fino. Con una novedosa red generativa atencional, la AttnGAN puede sintetizar detalles de grano fino en diferentes subregiones de la imagen prestando atención a las palabras relevantes en la descripción en lenguaje natural. Además, se propone un modelo de similitud multimodal atencional profundo para calcular una pérdida de coincidencia de imagen-texto de grano fino para entrenar el generador. La AttnGAN propuesta supera significativamente el estado del arte anterior, aumentando el mejor puntaje de inception reportado en un 14.14% en el conjunto de datos CUB y en un 170.25% en el más desafiante conjunto de datos COCO. También se realiza un análisis detallado visualizando las capas de atención de la AttnGAN. Por primera vez se muestra que el GAN atencional en capas es capaz de seleccionar automáticamente la condición a nivel de palabra para generar diferentes partes de la imagen.
Xu et al. (Fri,) estudiaron esta cuestión.