March 20, 2024Open Access

T-Pixel2Mesh: Kombination von globalem und lokalem Transformer zur 3D-Mesh-Generierung aus einem Einzelbild

Key Points

Key points are not available for this paper at this time.

Abstract

Pixel2Mesh (P2M) ist ein klassischer Ansatz zur Rekonstruktion von 3D-Formen aus einem einzelnen Farbbild durch Grob-zu-fein Mesh-Deformation. Obwohl P2M in der Lage ist, plausible globale Formen zu generieren, führt sein Graph Convolution Network (GCN) oft zu übermäßig glatten Ergebnissen, wodurch feine geometrische Details verloren gehen. Darüber hinaus generiert P2M unglaubwürdige Merkmale für okkludierte Regionen und hat Probleme mit der Domänenschere von synthetischen Daten zu realen Bildern, was eine häufige Herausforderung für 3D-Rekonstruktionsmethoden mit Einzelansicht darstellt. Um diese Herausforderungen anzugehen, schlagen wir eine neuartige, Transformer-unterstützte Architektur namens T-Pixel2Mesh vor, die vom Grob-zu-fein-Ansatz von P2M inspiriert ist. Konkret verwenden wir einen globalen Transformer, um die ganzheitliche Form zu steuern, und einen lokalen Transformer, um die lokalen geometrischen Details schrittweise mit graphbasiertem Punkt-Upsampling zu verfeinern. Um die Rekonstruktion in der realen Welt zu verbessern, präsentieren wir die einfache, aber effektive Linear Scale Search (LSS), die als Prompt-Tuning während der Eingabeverarbeitung dient. Unsere Experimente auf ShapeNet zeigen eine Spitzenleistung, während die Ergebnisse mit realen Daten die Generalisierungsfähigkeit demonstrieren.

T-Pixel2Mesh: Kombination von globalem und lokalem Transformer zur 3D-Mesh-Generierung aus einem Einzelbild

Key Points

Abstract

Cite This Study

Also Consider

Also Consider