What question did this study set out to answer?

A pesquisa tem como objetivo aprimorar a edição de imagens impulsionada por texto gerando diversas imagens faciais usando manipulação do espaço latente.

April 1, 2026Open Access

Edição de Imagens Faciais Impulsionada por Texto Natural e Multi-Atributo com Robustez em Espaço Latente Raro

Key Points

A pesquisa tem como objetivo aprimorar a edição de imagens impulsionada por texto gerando diversas imagens faciais usando manipulação do espaço latente.
Utilizou modelos pré-treinados CLIP e StyleGAN2.
Editou códigos latentes no espaço latente do StyleGAN com base nas entradas de texto.
Focou na edição de múltiplos atributos faciais simultaneamente em regiões esparsas.
Atingiu uma diversidade de imagem melhorada nas imagens faciais geradas com base na orientação do texto.
Demonstrou robustez na manipulação de múltiplos atributos no espaço latente.

Abstract

Devido ao desenvolvimento de GAN e à proposta de muitos modelos excelentes como o StyleGAN, a edição de imagens impulsionada por texto e a geração de imagens avançaram significativamente nos últimos anos, mas a tarefa de gerar imagens diversas de pessoas específicas sob a orientação de texto ainda é limitada. Este artigo combina dois modelos de pré-treinamento, CLIP e StyleGAN2, para conduzir uma exploração preliminar das tarefas acima. O código latente do retrato de entrada é direcionado a ser editado e manipulado no espaço latente do StyleGAN através de um módulo impulsionado por texto baseado em CLIP. Especialmente na região esparsa do espaço latente do gerador, e ao editar múltiplos atributos ao mesmo tempo, finalmente foram obtidos alguns bons resultados.

Bookmark

View Full Paper

Bookmark

View Full Paper

Edição de Imagens Faciais Impulsionada por Texto Natural e Multi-Atributo com Robustez em Espaço Latente Raro

Key Points

Abstract

Cite This Study