Devido ao desenvolvimento de GAN e à proposta de muitos modelos excelentes como o StyleGAN, a edição de imagens impulsionada por texto e a geração de imagens avançaram significativamente nos últimos anos, mas a tarefa de gerar imagens diversas de pessoas específicas sob a orientação de texto ainda é limitada. Este artigo combina dois modelos de pré-treinamento, CLIP e StyleGAN2, para conduzir uma exploração preliminar das tarefas acima. O código latente do retrato de entrada é direcionado a ser editado e manipulado no espaço latente do StyleGAN através de um módulo impulsionado por texto baseado em CLIP. Especialmente na região esparsa do espaço latente do gerador, e ao editar múltiplos atributos ao mesmo tempo, finalmente foram obtidos alguns bons resultados.
Jianpeng Zou (Sex,) estudou essa questão.