Key points are not available for this paper at this time.
Des travaux récents sur l'Interpolation d'Images Vidéo (VFI) tentent de formuler la VFI comme un problème de génération d'images conditionnelles basé sur la diffusion, synthétisant l'image intermédiaire donnée un bruit aléatoire et des images voisines. En raison de la résolution relativement élevée des vidéos, les Modèles de Diffusion Latente (LDM) sont employés comme modèle de génération conditionnelle, où l'autoencodeur compresse les images en représentations latentes pour la diffusion et reconstruit ensuite les images à partir de ces représentations latentes. Une telle formulation pose un défi crucial : la VFI attend que la sortie soit déterministiquement égale à l'image intermédiaire de référence, mais les LDM générent aléatoirement un ensemble diversifié d'images différentes lorsque le modèle est exécuté plusieurs fois. La raison de cette génération diversifiée est que la variance cumulée (variance accumulée à chaque étape de génération) des représentations latentes générées dans les LDM est grande. Cela rend la trajectoire d'échantillonnage aléatoire, entraînant des générations diverses plutôt que déterministes. Pour résoudre ce problème, nous proposons notre solution unique : Interpolation d'Images avec Diffusion de Pont Brownien Consécutif. Plus précisément, nous proposons une diffusion de pont brownien consécutif qui prend une valeur initiale déterministe comme input, entraînant une variance cumulée beaucoup plus petite des représentations latentes générées. Nos expériences suggèrent que notre méthode peut s'améliorer avec l'amélioration de l'autoencodeur et atteindre des performances de pointe en VFI, laissant un fort potentiel pour une amélioration supplémentaire.
Lyu et al. (Thu,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: