Key points are not available for this paper at this time.
Este artigo busca a edição de imagens por meio de modelos generativos. Correspondência de Fluxo é uma técnica de modelagem generativa emergente que oferece a vantagem de treinamento simples e eficiente. Simultaneamente, um novo U-ViT baseado em transformadores foi recentemente proposto para substituir o UNet comum, visando melhor escalabilidade e desempenho na modelagem generativa. Portanto, a Correspondência de Fluxo com uma estrutura de transformador oferece o potencial para modelagem generativa escalável e de alta qualidade, mas sua estrutura latente e capacidade de edição ainda são desconhecidas. Assim, adotamos esse cenário e exploramos como editar imagens por meio da manipulação do espaço latente. Introduzimos um espaço de edição, que chamamos de espaço u, que pode ser manipulado de forma controlável, acumulativa e compositária. Além disso, propomos uma solução de amostragem personalizada para permitir a amostragem com solvers ODE de tamanho de passo adaptativo mais eficientes. Por fim, apresentamos um método simples, mas poderoso, para alcançar uma edição detalhada e sutil usando prompts textuais. Nossa estrutura é simples e eficiente, mantendo-se altamente eficaz na edição de imagens enquanto preserva a essência do conteúdo original. Nosso código estará disponível publicamente em https://taohu.me/lfm/
Hu et al. (Sun,) estudaram essa questão.