Nous explorons la synthèse de nouvelles vues pour des scènes dynamiques à partir de vidéos monoculaires. Les approches antérieures dépendent d'une optimisation coûteuse des représentations 4D au moment des tests ou ne préservent pas la géométrie de la scène lorsqu'elles sont formées de manière feed-forward. Notre approche est basée sur trois idées clés : (1) les pixels co-visibles (qui sont visibles à la fois dans les vues d'entrée et de cible) peuvent être rendus en reconstruisant d'abord la scène 3D dynamique et en rendant la reconstruction à partir des nouvelles vues et (2) les pixels cachés dans les nouvelles vues peuvent être "inpainted" avec des modèles de diffusion vidéo 2D feed-forward. Notamment, notre modèle de diffusion d'inpainting vidéo (CogNVS) peut être auto-supervisé à partir de vidéos 2D, ce qui nous permet de l'entraîner sur un grand corpus de vidéos en milieu naturel. Cela permet à (3) CogNVS d'être appliqué sans entraînement sur de nouvelles vidéos de test via un finetuning au moment des tests. Nous vérifions empiriquement que CogNVS surpasse presque toutes les œuvres antérieures pour la synthèse de nouvelles vues de scènes dynamiques à partir de vidéos monoculaires.
Chen et al. (Mer,) ont étudié cette question.