Nous présentons PAD3R, une méthode pour reconstruire des objets 3D déformables à partir de vidéos monoculaires capturées de manière informelle et non posée. Contrairement aux approches existantes, PAD3R gère de longues séquences vidéo présentant une déformation substantielle des objets, un mouvement de caméra à grande échelle et une couverture de vue limitée qui défient généralement les systèmes conventionnels. Au cœur de notre approche, nous entraînons un estimateur de pose centré sur l'objet et personnalisé, supervisé par un modèle image-à-3D pré-entraîné. Cela guide l'optimisation de la représentation 3D gaussienne déformable. L'optimisation est en outre regularisée par le suivi de points 2D à long terme sur l'ensemble de la vidéo d'entrée. En combinant des prioris génératifs et un rendu différentiable, PAD3R reconstruit des représentations 3D articulées de haute fidélité des objets de manière agnostique à la catégorie. Des résultats qualitatifs et quantitatifs étendus montrent que PAD3R est robuste et se généralise bien dans des scénarios difficiles, soulignant son potentiel pour la compréhension de scènes dynamiques et la création de contenu 3D.
Liao et al. (Mon,) ont étudié cette question.