Key points are not available for this paper at this time.
Bei neueren, auf Diffusion basierenden generativen Modellen stellt die Aufrechterhaltung konsistenter Inhalte über eine Reihe generierter Bilder, insbesondere solcher, die Motive und komplexe Details enthalten, eine erhebliche Herausforderung dar. In diesem Papier schlagen wir eine neue Methode zur Berechnung der Selbstaufmerksamkeit vor, die als Konsistente Selbstaufmerksamkeit bezeichnet wird und die Konsistenz zwischen den generierten Bildern erheblich steigert sowie gängige vortrainierte, auf Diffusion basierende Text-zu-Bild-Modelle auf null-shot Weise ergänzt. Um unsere Methode auf die langfristige Videogenerierung auszuweiten, führen wir zusätzlich ein neuartiges Modul zur Vorhersage von zeitlichen Bewegungen im semantischen Raum ein, genannt Semantischer Bewegungsprädiktor. Es wird trainiert, um die Bewegungsbedingungen zwischen zwei bereitgestellten Bildern im semantischen Raum zu schätzen. Dieses Modul wandelt die generierte Bildsequenz in Videos mit sanften Übergängen und konsistenten Motiven um, die erheblich stabiler sind als die Module, die nur auf latenten Räumen basieren, insbesondere im Kontext der langfristigen Videogenerierung. Durch die Kombination dieser beiden neuartigen Komponenten kann unser Framework, das als StoryDiffusion bezeichnet wird, eine textbasierte Geschichte mit konsistenten Bildern oder Videos beschreiben, die eine Vielzahl reichhaltiger Inhalte umfassen. Das vorgeschlagene StoryDiffusion umfasst bahnbrechende Erkundungen in der visuellen Geschichtenerzeugung mit der Präsentation von Bildern und Videos, die hoffentlich weitere Forschung im Hinblick auf architektonische Modifikationen anregen könnte. Unser Code steht öffentlich zur Verfügung unter https://github.com/HVision-NKU/StoryDiffusion.
Zhou et al. (Thu,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: