March 10, 2024Open Access

DivCon: Dividir e Conquistar para Geração Progressiva de Texto para Imagem

Key Points

Key points are not available for this paper at this time.

Abstract

A geração de texto para imagem (T2I) impulsionada por difusão alcançou avanços notáveis. Para melhorar ainda mais a capacidade dos modelos T2I em raciocínio numérico e espacial, o layout é empregado como um intermediário para unir grandes modelos de linguagem e modelos de difusão baseados em layout. No entanto, esses métodos ainda enfrentam dificuldades em gerar imagens a partir de prompts textuais com múltiplos objetos e relações espaciais complicadas. Para enfrentar esse desafio, introduzimos uma abordagem de dividir e conquistar que desacopla a tarefa de geração de T2I em subtarefas simples. Nossa abordagem divide a fase de previsão de layout em raciocínio numérico e espacial e previsão de caixa delimitadora. Em seguida, a fase de geração de layout para imagem é conduzida de maneira iterativa para reconstruir objetos dos mais fáceis aos mais difíceis. Realizamos experimentos nos benchmarks HRS e NSR-1K e nossa abordagem supera modelos anteriores de estado da arte com margens notáveis. Além disso, os resultados visuais demonstram que nossa abordagem melhora significativamente a controlabilidade e a consistência na geração de múltiplos objetos a partir de prompts textuais complexos.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper