Key points are not available for this paper at this time.
Pixel2Mesh (P2M) ist ein klassischer Ansatz zur Rekonstruktion von 3D-Formen aus einem einzelnen Farbbild durch Grob-zu-fein Mesh-Deformation. Obwohl P2M in der Lage ist, plausible globale Formen zu generieren, führt sein Graph Convolution Network (GCN) oft zu übermäßig glatten Ergebnissen, wodurch feine geometrische Details verloren gehen. Darüber hinaus generiert P2M unglaubwürdige Merkmale für okkludierte Regionen und hat Probleme mit der Domänenschere von synthetischen Daten zu realen Bildern, was eine häufige Herausforderung für 3D-Rekonstruktionsmethoden mit Einzelansicht darstellt. Um diese Herausforderungen anzugehen, schlagen wir eine neuartige, Transformer-unterstützte Architektur namens T-Pixel2Mesh vor, die vom Grob-zu-fein-Ansatz von P2M inspiriert ist. Konkret verwenden wir einen globalen Transformer, um die ganzheitliche Form zu steuern, und einen lokalen Transformer, um die lokalen geometrischen Details schrittweise mit graphbasiertem Punkt-Upsampling zu verfeinern. Um die Rekonstruktion in der realen Welt zu verbessern, präsentieren wir die einfache, aber effektive Linear Scale Search (LSS), die als Prompt-Tuning während der Eingabeverarbeitung dient. Unsere Experimente auf ShapeNet zeigen eine Spitzenleistung, während die Ergebnisse mit realen Daten die Generalisierungsfähigkeit demonstrieren.
Zhang et al. (Mittwoch,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: