Key points are not available for this paper at this time.
Ao decompor o processo de formação da imagem em uma aplicação sequencial de autoencoders de denoising, os modelos de difusão (DMs) alcançam resultados de síntese de estado-da-arte em dados de imagem e além. Além disso, sua formulação permite um mecanismo de orientação para controlar o processo de geração de imagem sem a necessidade de re-treinamento. No entanto, como esses modelos normalmente operam diretamente no espaço de pixels, a otimização de DMs poderosos frequentemente consome centenas de dias de GPU e a inferência é dispendiosa devido a avaliações sequenciais. Para viabilizar o treinamento de DMs com recursos computacionais limitados, mantendo sua qualidade e flexibilidade, aplicamos eles no espaço latente de autoencoders pré-treinados poderosos. Em contraste com trabalhos anteriores, treinar modelos de difusão nessa representação permite pela primeira vez alcançar um ponto quase ótimo entre redução de complexidade e preservação de detalhes, aumentando significativamente a fidelidade visual. Ao introduzir camadas de cross-attention na arquitetura do modelo, transformamos modelos de difusão em geradores poderosos e flexíveis para entradas condicionais gerais, como texto ou caixas delimitadoras, e a síntese em alta resolução torna-se possível de forma convolucional. Nossos modelos de difusão latente (LDMs) atingem novos escores de estado-da-arte para restauração de imagens (image inpainting) e síntese de imagem condicional por classes, e desempenho altamente competitivo em várias tarefas, incluindo geração incondicional de imagens, síntese de texto-para-imagem e super-resolução, enquanto reduzem significativamente os requisitos computacionais em comparação aos DMs baseados em pixels.
Rombach et al. (Qua,) estudaram essa questão.