Simulation ist entscheidend für die Entwicklung und Bewertung autonomer Fahrzeugsysteme (AV). Neuere Literatur baut auf einer neuen Generation von generativen Modellen auf, um hochrealistische Bilder für die Full-Stack-Simulation zu synthetisieren. Allerdings sind rein synthetisch generierte Szenen nicht in der Realität verankert und haben Schwierigkeiten, Vertrauen in die Relevanz ihrer Ergebnisse zu inspirieren. Bearbeitungsmodelle hingegen nutzen Quellszenen aus echten Fahrprotokollen und ermöglichen die Simulation unterschiedlicher Verkehrsaufbauten, Verhaltensweisen und Betriebsbedingungen wie Wetter und Tageszeit. Während die Bildbearbeitung ein etabliertes Thema in der Computer Vision ist, stellt sie neue Herausforderungen in der Fahrzeugsimulation dar: (1) der Bedarf an 3D-Konsistenz über Kameras hinweg, (2) das Lernen von "leeren Straßen"-Prioritäten aus Fahrdaten mit Vordergrundverdeckungen und (3) die Obtention gepaarter Bildpaare unter variierenden Bearbeitungsbedingungen bei Erhaltung eines konsistenten Layouts und der Geometrie. Um diese Herausforderungen anzugehen, schlagen wir SceneCrafter vor, einen vielseitigen Editor für die realistische 3D-konsistente Manipulation von Fahrzeugszenen, die aus mehreren Kameras erfasst wurden. Wir bauen auf den jüngsten Fortschritten in Multi-View-Diffusionsmodellen auf und nutzen ein vollständig kontrollierbares Framework, das sich nahtlos an die multimodalen Bedingungen wie Wetter, Tageszeit, Agentenboxen und hochauflösende Karten anpasst. Um gepaarte Daten zur Aufsicht über das Bearbeitungsmodell zu generieren, schlagen wir ein neuartiges Framework auf Basis von Prompt-to-Prompt vor, um geometrisch konsistente synthetische gepaarte Daten mit globalen Bearbeitungen zu erzeugen. Wir führen auch ein Alpha-Blending-Framework ein, um Daten mit lokalen Bearbeitungen zu synthetisieren, das ein Modell nutzt, das auf leeren Straßen-Prioritäten durch neuartige Maskentraining- und Multi-View-Neu-Gestaltung entwickelt wurde. SceneCrafter zeigt leistungsstarke Bearbeitungsfähigkeiten und erreicht eine Realismus-, Kontrollierbarkeit-, 3D-Konsistenz- und Qualität der Szenenbearbeitung, die im Vergleich zu bestehenden Baselines führend ist.
Zhu et al. (Tue,) untersuchten diese Frage.