Bestehende 4D-Synthesemethoden konzentrieren sich hauptsächlich auf die Objektebene oder die dynamische Szenensynthese mit begrenzten neuen Ansichten, was ihre Fähigkeit einschränkt, konsistente und immersive dynamische 4D-Szenen aus mehreren Perspektiven zu generieren. Um diese Einschränkungen zu beheben, schlagen wir ein Framework (CoCo4D genannt) vor, das detaillierte dynamische 4D-Szenen aus Texthinweisen generiert, mit der Möglichkeit, Bilder einzufügen. Unsere Methode nutzt die entscheidende Beobachtung, dass artikulierte Bewegungen typischerweise Vordergrundobjekte kennzeichnen, während Hintergrundveränderungen weniger ausgeprägt sind. Folglich unterteilt CoCo4D die 4D-Szenensynthese in zwei Verantwortlichkeiten: Modellierung des dynamischen Vordergrunds und Erstellung des sich entwickelnden Hintergrunds, beide geleitet von einer Referenzbewegungssequenz. Angesichts eines Texthinweises und eines optionalen Referenzbildes generiert CoCo4D zunächst eine anfängliche Bewegungssequenz unter Verwendung von Video-Diffusionsmodellen. Diese Bewegungssequenz leitet dann die Synthese sowohl des dynamischen Vordergrundobjekts als auch des Hintergrunds mithilfe eines neuartigen progressiven Outpainting-Schemas. Um die nahtlose Integration des sich bewegenden Vordergrundobjekts im dynamischen Hintergrund zu gewährleisten, optimiert CoCo4D eine parametrische Trajektorie für den Vordergrund, was zu einer realistischen und kohärenten Vermischung führt. Umfangreiche Experimente zeigen, dass CoCo4D im Vergleich zu bestehenden Methoden eine vergleichbare oder überlegene Leistung in der 4D-Szenengenerierung erzielt, was seine Wirksamkeit und Effizienz demonstriert. Mehr Ergebnisse sind auf unserer Website https://colezwhy.github.io/coco4d/ zu finden.
Zhou et al. (Tue,) untersuchten diese Frage.