August 28, 2024Open Access

Erstellung hochwertiger 3D-Inhalte durch Überbrückung der Kluft zwischen der Text-zu-2D- und der Text-zu-3D-Generierung

Key Points

Key points are not available for this paper at this time.

Abstract

In letzter Zeit hat die automatische Erstellung von 3D-Inhalten aus Text erhebliche Fortschritte gemacht, die durch die Entwicklung von vortrainierten 2D-Diffusionsmodellen vorangetrieben wurden. Bestehende Methoden zur Text-zu-3D-Generierung optimieren typischerweise die 3D-Darstellung, um sicherzustellen, dass das gerenderte Bild gut mit dem gegebenen Text übereinstimmt, wie es das vortrainierte 2D-Diffusionsmodell bewertet. Dennoch gibt es eine erhebliche Diskrepanz zwischen 2D-Bildern und 3D-Assets, die hauptsächlich auf Variationen bei kameraabhängigen Merkmalen und das ausschließliche Vorhandensein von Vordergrundobjekten zurückzuführen ist. Daher kann die direkte Verwendung von 2D-Diffusionsmodellen zur Optimierung von 3D-Darstellungen zu suboptimalen Ergebnissen führen. Um dieses Problem anzugehen, präsentieren wir X-Dreamer, einen neuartigen Ansatz zur Erstellung hochwertiger 3D-Inhalte aus Text, der die Kluft zwischen der Text-zu-2D- und der Text-zu-3D-Synthese effektiv überbrückt. Die Schlüsselelemente von X-Dreamer sind zwei innovative Designs: Kamera-gesteuerte Low-Rank-Anpassung (CG-LoRA) und Attention-Mask Alignment (AMA) Loss. CG-LoRA integriert dynamisch Kamerainformationen in die vortrainierten Diffusionsmodelle, indem kameraabhängige Generierung für trainierbare Parameter eingesetzt wird. Diese Integration macht das 2D-Diffusionsmodell kamerafreundlich. AMA-Loss leitet die Aufmerksamkeitskarte des vortrainierten Diffusionsmodells mithilfe der binären Maske des 3D-Objekts und priorisiert die Erstellung des Vordergrundobjekts. Dieses Modul stellt sicher, dass das Modell sich auf die Generierung genauer und detaillierter Vordergrundobjekte konzentriert. Umfassende Bewertungen zeigen die Wirksamkeit unserer vorgeschlagenen Methode im Vergleich zu bestehenden Text-zu-3D-Ansätzen. Unsere Projektwebseite: https://anonymous-11111.github.io/. Unser Code ist verfügbar unter https://github.com/xmu-xiaoma666/X-Dreamer.

Erstellung hochwertiger 3D-Inhalte durch Überbrückung der Kluft zwischen der Text-zu-2D- und der Text-zu-3D-Generierung

Key Points

Abstract

Cite This Study

Also Consider

Also Consider