Key points are not available for this paper at this time.
Les modèles génératifs basés sur la diffusion ont récemment montré des capacités remarquables en matière d'édition d'images et de vidéos. Cependant, l'édition locale de vidéos, en particulier le retrait de petits attributs comme les lunettes, reste un défi. Les méthodes existantes altèrent soit excessivement les vidéos, génèrent des artefacts irréalistes, soit échouent à effectuer la modification demandée de manière cohérente tout au long de la vidéo. Dans ce travail, nous nous concentrons sur le retrait cohérent et préservant l'identité des lunettes dans les vidéos, l'utilisant comme une étude de cas pour le retrait d'attributs locaux de manière cohérente dans les vidéos. En raison du manque de données appariées, nous adoptons une approche faiblement supervisée et générons des données synthétiques imparfaites, en utilisant un modèle de diffusion préentraîné ajusté. Nous montrons que malgré l'imperfection des données, en apprenant à partir de nos données générées et en tirant parti des priorités des modèles de diffusion préentraînés, notre modèle est capable d'effectuer la modification souhaitée de manière cohérente tout en préservant le contenu original de la vidéo. De plus, nous illustrons la capacité de généralisation de notre méthode à d'autres tâches d'édition locale de vidéos en l'appliquant avec succès au retrait d'autocollants faciaux. Notre approche démontre une amélioration significative par rapport aux méthodes existantes, mettant en avant le potentiel de l'utilisation de données synthétiques et de fortes priorités vidéo pour les tâches d'édition locale de vidéos.
Shalev-Arkushin et al. (Thu,) ont étudié cette question.