Modelos autoregressivos para geração de vídeo normalmente operam quadro a quadro, estendendo a previsão do próximo token da linguagem para a dimensão temporal do vídeo. Questionamos se, ao contrário da palavra como token, que é universalmente aceita na linguagem, o quadro é uma unidade de previsão apropriada? Para abordar isso, apresentamos o VideoAR, uma estrutura unificada que suporta um espectro de unidades de previsão, incluindo quadros completos, quadros de detalhes-chave, refinamentos multiescalares e cubos espaçotemporais. Entre esses designs, encontramos que a geração de vídeo modelada usando cubos espaçotemporais como unidades de previsão permite que modelos autoregressivos operem simultaneamente nas dimensões espacial e temporal. Essa abordagem elimina a suposição de que os quadros são as unidades atômicas naturais para a autoregressão de vídeo. Avaliamos o VideoAR em diversas estratégias de previsão, constatando que a previsão baseada em cubos consistentemente oferece qualidade, velocidade e coerência temporal superiores. Ao remover a restrição quadro a quadro, nosso gerador de vídeo supera as linhas de base de última geração no VBench, ao mesmo tempo em que alcança inferência mais rápida e permite escalonamento contínuo para sequências de um minuto. Esperamos que este trabalho motive uma reavaliação da decomposição de sequências em vídeo e em outros domínios espaçotemporais.
Ren et al. (Sun,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: