What type of study is this?

This is a Experimental Study study.

October 2, 2025Open Access

SceneCrafter: Kontrollierbare Bearbeitung von Fahrzeugszenen aus mehreren Ansichten

Key Points

SceneCrafter erreicht führenden Realismus und 3D-Konsistenz in der Bearbeitung von Fahrzeugszenen und verbessert die Simulationsqualität.
Dieser vielseitige Editor nutzt Multi-View-Diffusionsmodelle und ein neuartiges Prompt-to-Prompt-Framework zur Generierung gepaarter Daten.
Durch die Implementierung von Alpha-Blending-Techniken und Maskentraining ermöglicht er lokalisierte Bearbeitungen in Fahrzeugszenen mit dynamischen Bedingungen.
Das System adressiert effektiv Herausforderungen wie Vordergrundverdeckungen und Konsistenz über Kameras hinweg, was auf das Potenzial in der Simulation autonomer Fahrzeuge hinweist.

Abstract

Simulation ist entscheidend für die Entwicklung und Bewertung autonomer Fahrzeugsysteme (AV). Neuere Literatur baut auf einer neuen Generation von generativen Modellen auf, um hochrealistische Bilder für die Full-Stack-Simulation zu synthetisieren. Allerdings sind rein synthetisch generierte Szenen nicht in der Realität verankert und haben Schwierigkeiten, Vertrauen in die Relevanz ihrer Ergebnisse zu inspirieren. Bearbeitungsmodelle hingegen nutzen Quellszenen aus echten Fahrprotokollen und ermöglichen die Simulation unterschiedlicher Verkehrsaufbauten, Verhaltensweisen und Betriebsbedingungen wie Wetter und Tageszeit. Während die Bildbearbeitung ein etabliertes Thema in der Computer Vision ist, stellt sie neue Herausforderungen in der Fahrzeugsimulation dar: (1) der Bedarf an 3D-Konsistenz über Kameras hinweg, (2) das Lernen von "leeren Straßen"-Prioritäten aus Fahrdaten mit Vordergrundverdeckungen und (3) die Obtention gepaarter Bildpaare unter variierenden Bearbeitungsbedingungen bei Erhaltung eines konsistenten Layouts und der Geometrie. Um diese Herausforderungen anzugehen, schlagen wir SceneCrafter vor, einen vielseitigen Editor für die realistische 3D-konsistente Manipulation von Fahrzeugszenen, die aus mehreren Kameras erfasst wurden. Wir bauen auf den jüngsten Fortschritten in Multi-View-Diffusionsmodellen auf und nutzen ein vollständig kontrollierbares Framework, das sich nahtlos an die multimodalen Bedingungen wie Wetter, Tageszeit, Agentenboxen und hochauflösende Karten anpasst. Um gepaarte Daten zur Aufsicht über das Bearbeitungsmodell zu generieren, schlagen wir ein neuartiges Framework auf Basis von Prompt-to-Prompt vor, um geometrisch konsistente synthetische gepaarte Daten mit globalen Bearbeitungen zu erzeugen. Wir führen auch ein Alpha-Blending-Framework ein, um Daten mit lokalen Bearbeitungen zu synthetisieren, das ein Modell nutzt, das auf leeren Straßen-Prioritäten durch neuartige Maskentraining- und Multi-View-Neu-Gestaltung entwickelt wurde. SceneCrafter zeigt leistungsstarke Bearbeitungsfähigkeiten und erreicht eine Realismus-, Kontrollierbarkeit-, 3D-Konsistenz- und Qualität der Szenenbearbeitung, die im Vergleich zu bestehenden Baselines führend ist.

SceneCrafter: Kontrollierbare Bearbeitung von Fahrzeugszenen aus mehreren Ansichten

Key Points

Abstract

Cite This Study