What type of study is this?

This is a Quantitative Study study.

October 19, 2025Open Access

Reconstruction, Inpainting, Finition : Synthèse dynamique de nouvelles vues à partir de vidéos monoculaires

Key Points

CogNVS améliore considérablement la synthèse de nouvelles vues pour des scènes dynamiques utilisant des vidéos monoculaires.
La méthode obtient de meilleurs résultats que les approches précédentes en s'appuyant sur la reconstruction de scènes 3D.
Des preuves empiriques montrent que CogNVS excelle à générer des sorties visuelles de haute qualité à travers diverses nouvelles vues.
L'aspect d'apprentissage auto-supervisé permet une application plus large sans nécessiter de larges ensembles de données.

Abstract

Nous explorons la synthèse de nouvelles vues pour des scènes dynamiques à partir de vidéos monoculaires. Les approches antérieures dépendent d'une optimisation coûteuse des représentations 4D au moment des tests ou ne préservent pas la géométrie de la scène lorsqu'elles sont formées de manière feed-forward. Notre approche est basée sur trois idées clés : (1) les pixels co-visibles (qui sont visibles à la fois dans les vues d'entrée et de cible) peuvent être rendus en reconstruisant d'abord la scène 3D dynamique et en rendant la reconstruction à partir des nouvelles vues et (2) les pixels cachés dans les nouvelles vues peuvent être "inpainted" avec des modèles de diffusion vidéo 2D feed-forward. Notamment, notre modèle de diffusion d'inpainting vidéo (CogNVS) peut être auto-supervisé à partir de vidéos 2D, ce qui nous permet de l'entraîner sur un grand corpus de vidéos en milieu naturel. Cela permet à (3) CogNVS d'être appliqué sans entraînement sur de nouvelles vidéos de test via un finetuning au moment des tests. Nous vérifions empiriquement que CogNVS surpasse presque toutes les œuvres antérieures pour la synthèse de nouvelles vues de scènes dynamiques à partir de vidéos monoculaires.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper