Key points are not available for this paper at this time.
Das Lernen objektzentrierter Repräsentationen aus unbeaufsichtigten Videos ist herausfordernd. Im Gegensatz zu den meisten vorherigen Ansätzen, die sich auf die Zerlegung von 2D-Bildern konzentrieren, präsentieren wir ein 3D-generatives Modell namens DynaVol-S für dynamische Szenen, das objektzentriertes Lernen innerhalb eines differenzierbaren Volumenrendering-Rahmens ermöglicht. Die Schlüsselidee ist, eine objektzentrierte Voxelisation durchzuführen, um die 3D-Natur der Szene zu erfassen, die die Objektbesetzungswahrscheinlichkeiten an individuellen räumlichen Positionen ableitet. Diese Voxelmerkmale entwickeln sich durch eine Deformationsfunktion im kanonischen Raum und werden in einer inversen Rendering-Pipeline mit einem kompositorischen NeRF optimiert. Darüber hinaus integriert unser Ansatz 2D-semantische Merkmale, um 3D-semantische Gitter zu erstellen, die die Szene durch mehrere entkoppelte Voxelgitter repräsentieren. DynaVol-S übertrifft bestehende Modelle sowohl bei der Synthese neuer Ansichten als auch bei den Aufgaben der unbeaufsichtigten Zerlegung für dynamische Szenen erheblich. Durch die gemeinsame Betrachtung geometrischer Strukturen und semantischer Merkmale adressiert es effektiv herausfordernde reale Szenarien, die komplexe Objektinteraktionen beinhalten. Darüber hinaus ermöglichen die explizit bedeutungsvollen Voxelmerkmale, die nach dem Training erzielt werden, zusätzliche Fähigkeiten, die Methoden zur 2D-Szenenzerlegung nicht erreichen können, wie die Generierung neuer Szenen durch Bearbeitung geometrischer Formen oder die Manipulation der Bewegungsbahnen von Objekten.
Zhao et al. (Di,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: