What type of study is this?

This is a Experimental Study study.

October 20, 2025Open Access

Geração de Vídeo Autoregressiva além da Previsão de Próximos Quadros

Key Points

Unidades de previsão baseadas em cubos melhoram significativamente a qualidade e a velocidade da geração de vídeo, demonstrando uma coerência temporal aprimorada.
O estudo avalia o VideoAR em comparação com linhas de base de última geração no VBench, demonstrando desempenho superior em vários cenários.
A pesquisa propõe que cubos espaçotemporais fornecem uma representação mais eficaz do que a autoregressão tradicional baseada em quadros.
Ao ir além das restrições quadro a quadro, o VideoAR facilita a geração de sequências mais longas com melhor eficiência.

Abstract

Modelos autoregressivos para geração de vídeo normalmente operam quadro a quadro, estendendo a previsão do próximo token da linguagem para a dimensão temporal do vídeo. Questionamos se, ao contrário da palavra como token, que é universalmente aceita na linguagem, o quadro é uma unidade de previsão apropriada? Para abordar isso, apresentamos o VideoAR, uma estrutura unificada que suporta um espectro de unidades de previsão, incluindo quadros completos, quadros de detalhes-chave, refinamentos multiescalares e cubos espaçotemporais. Entre esses designs, encontramos que a geração de vídeo modelada usando cubos espaçotemporais como unidades de previsão permite que modelos autoregressivos operem simultaneamente nas dimensões espacial e temporal. Essa abordagem elimina a suposição de que os quadros são as unidades atômicas naturais para a autoregressão de vídeo. Avaliamos o VideoAR em diversas estratégias de previsão, constatando que a previsão baseada em cubos consistentemente oferece qualidade, velocidade e coerência temporal superiores. Ao remover a restrição quadro a quadro, nosso gerador de vídeo supera as linhas de base de última geração no VBench, ao mesmo tempo em que alcança inferência mais rápida e permite escalonamento contínuo para sequências de um minuto. Esperamos que este trabalho motive uma reavaliação da decomposição de sequências em vídeo e em outros domínios espaçotemporais.

Geração de Vídeo Autoregressiva além da Previsão de Próximos Quadros

Key Points

Abstract

Cite This Study

Also Consider

Also Consider