A geração de imagem a partir de texto representa uma fronteira em rápida evolução na inteligência artificial, permitindo a transformação de descrições em linguagem natural em imagens visualmente coerentes e semanticamente ricas. Este artigo apresenta uma revisão abrangente dos modelos geradores de última geração — incluindo Redes Adversariais Generativas (GANs), Autoencoders Variacionais (VAEs) e Modelos de Difusão avançados — com foco em suas capacidades de produzir imagens de alta fidelidade e precisão contextual a partir de entradas textuais. Além disso, analisamos os principais frameworks de síntese de imagem sustentável, como DALL-E 2, Stable Diffusion, Imagen e MidJourney, avaliando seus avanços na qualidade da imagem, alinhamento semântico, diversidade e eficiência computacional. Nossa avaliação sistemática destaca o progresso significativo na geração de imagens realistas de alta resolução, ao mesmo tempo que identifica desafios persistentes relacionados à consistência semântica, controle refinado, considerações éticas e demandas computacionais substanciais. Além disso, discutimos trade-offs críticos entre desempenho do modelo e sustentabilidade, promovendo direções de pesquisa futuras visando o desenvolvimento de sistemas de geração de texto para imagem mais eficientes, justos e ambientalmente responsáveis. Esta pesquisa serve como um recurso orientador para a próxima geração de tecnologias de síntese de texto para imagem sustentáveis impulsionadas por IA.
Bharne et al. (Quarta-feira) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: