Key points are not available for this paper at this time.
Modelos de difusão de texto para imagem recentemente receberam muito interesse por sua notável capacidade de produzir imagens de alta fidelidade apenas a partir de texto. No entanto, alcançar uma geração em uma única tentativa que se alinhe com a intenção do usuário é quase impossível, e pequenas mudanças no prompt de entrada frequentemente resultam em imagens muito diferentes. Isso deixa o usuário com pouco controle semântico. Para colocar o usuário no controle, mostramos como interagir com o processo de difusão para orientá-lo de forma flexível ao longo de direções semânticas. Essa orientação semântica (SEGA) se generaliza para qualquer arquitetura generativa usando orientação sem classificador. Mais importante ainda, permite edições sutis e extensas, mudanças na composição e no estilo, bem como a otimização da concepção artística geral. Demonstramos a eficácia do SEGA em modelos de difusão latentes e baseados em pixel, como Stable Diffusion, Paella e DeepFloyd-IF, utilizando uma variedade de tarefas, proporcionando assim fortes evidências de sua versatilidade, flexibilidade e melhorias em relação aos métodos existentes.
Brack et al. (Sat,) estudaram essa questão.