Key points are not available for this paper at this time.
Les modèles de diffusion inaugurent une nouvelle ère de montage vidéo, manipulant de manière flexible le contenu vidéo à l'aide d'invites textuelles. Malgré la forte demande d'application pour le montage de vidéos centrées sur l'humain, ces modèles rencontrent des difficultés majeures avec des objets complexes comme les humains. Dans cet article, nous présentons DeCo, un cadre de montage vidéo novateur spécialement conçu pour traiter les humains et l'arrière-plan comme des cibles éditables séparées, garantissant la cohérence spatio-temporelle globale en maintenant la cohérence de chaque composant individuel. Plus précisément, nous proposons une représentation dynamique humaine découplée qui utilise un modèle paramétrique du corps humain pour générer des humains personnalisés tout en préservant les mouvements cohérents de la vidéo originale. De plus, nous considérons l'arrière-plan comme un atlas en couches afin d'y appliquer des méthodes de montage d'image guidées par texte. Pour améliorer davantage la géométrie et la texture des humains pendant l'optimisation, nous étendons le calcul de l'échantillonnage par distillation de score dans l'espace normal et l'espace image. Par ailleurs, nous résolvons l'incohérence d'éclairage entre les cibles éditées en exploitant un harmoniseur vidéo sensible à l'éclairage, un problème auparavant négligé dans les approches découper-éditer-combiner. De nombreuses expériences qualitatives et quantitatives montrent que DeCo surpasse les méthodes antérieures de montage vidéo pour les vidéos centrées sur l'humain, en particulier pour les vidéos de plus longue durée.
Zhong et al. (Mercredi,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: