Key points are not available for this paper at this time.
La composition vidéo est la tâche principale du montage vidéo. Bien que la composition d'images basée sur des modèles de diffusion ait connu un grand succès, il n'est pas évident d'étendre cette réussite aux tâches de composition d'objets vidéo, qui non seulement présentent des effets d'interaction correspondants, mais garantissent également que les objets dans la vidéo composite maintiennent la consistance du mouvement et de l'identité, ce qui est nécessaire pour composer une vidéo en harmonie physique. Pour relever ce défi, nous proposons une méthode de Composition Multiple d'Objets Vidéo (MVOC) basée sur des modèles de diffusion. Spécifiquement, nous effectuons d'abord une inversion DDIM sur chaque objet vidéo pour obtenir les caractéristiques de bruit correspondantes. Deuxièmement, nous combinons et éditons chaque objet par des méthodes d'édition d'image pour obtenir la première image de la vidéo composite. Enfin, nous utilisons le modèle de génération d'image à vidéo pour composer la vidéo avec des injections de caractéristiques et d'attention dans le Module de Dépendance d'Objet Vidéo, qui est une opération de guidage conditionnel sans training pour la génération vidéo, et permet la coordination des caractéristiques et des cartes d'attention entre divers objets qui peuvent être non indépendants dans la vidéo composite. Le modèle génératif final non seulement contraint les objets dans la vidéo générée à être cohérents avec le mouvement et l'identité de l'objet original, mais introduit également des effets d'interaction entre les objets. D'importantes expérimentations ont démontré que la méthode proposée surpasse les approches de pointe existantes. Page du projet : https://sobeymil.github.io/mvoc.com.
Wang et al. (Sat,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: