Key points are not available for this paper at this time.
Neste artigo, exploramos uma nova abordagem generativa para aprender representações visuais. Nosso método, DARL, emprega um Transformer apenas de decodificador para prever patches de imagem de forma autoregressiva. Descobrimos que o treinamento com Erro Quadrático Médio (MSE) por si só leva a representações robustas. Para aprimorar a capacidade de geração de imagens, substituímos a perda MSE pelo objetivo de difusão usando um decodificador de patches de denoising. Mostramos que a representação aprendida pode ser melhorada usando cronogramas de ruído personalizados e treinamento mais longo em modelos maiores. Notavelmente, o cronograma ideal difere significativamente daqueles tipicamente usados em modelos padrão de difusão de imagem. No geral, apesar de sua arquitetura simples, DARL entrega um desempenho notavelmente próximo dos modelos de previsão mascarada de última geração sob o protocolo de ajuste fino. Isso marca um passo importante em direção a um modelo unificado capaz tanto de percepção visual quanto de geração, combinando eficazmente as forças dos modelos autoregressivos e de difusão de denoising.
Li et al. (Sex,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: