January 28, 2023Open Access

SEGA: Instruindo Modelos de Texto para Imagem usando Orientação Semântica

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de difusão de texto para imagem recentemente receberam muito interesse por sua notável capacidade de produzir imagens de alta fidelidade apenas a partir de texto. No entanto, alcançar uma geração em uma única tentativa que se alinhe com a intenção do usuário é quase impossível, e pequenas mudanças no prompt de entrada frequentemente resultam em imagens muito diferentes. Isso deixa o usuário com pouco controle semântico. Para colocar o usuário no controle, mostramos como interagir com o processo de difusão para orientá-lo de forma flexível ao longo de direções semânticas. Essa orientação semântica (SEGA) se generaliza para qualquer arquitetura generativa usando orientação sem classificador. Mais importante ainda, permite edições sutis e extensas, mudanças na composição e no estilo, bem como a otimização da concepção artística geral. Demonstramos a eficácia do SEGA em modelos de difusão latentes e baseados em pixel, como Stable Diffusion, Paella e DeepFloyd-IF, utilizando uma variedade de tarefas, proporcionando assim fortes evidências de sua versatilidade, flexibilidade e melhorias em relação aos métodos existentes.

Bookmark

View Full Paper

Bookmark

View Full Paper

SEGA: Instruindo Modelos de Texto para Imagem usando Orientação Semântica

Key Points

Abstract

Cite This Study