Computer-Aided Design (CAD) spielt eine zentrale Rolle in der industriellen Fertigung. Das orthografische Projektionsdenken bildet die Grundlage des gesamten CAD-Workflows, einschließlich Design, Fertigung und Simulation. Allerdings verwenden gängige Deep-Learning-Ansätze standardmäßige 3D-Rekonstruktionspipelines als Alternative, die oft ungenaue Abmessungen einführen und die parametrierte Bearbeitbarkeit einschränken, die für CAD-Workflows erforderlich ist. Kürzlich haben einige Forscher Vision-Language-Modelle (VLMs), insbesondere überwacht fine-tuning (SFT), übernommen, um CAD-bezogene Herausforderungen zu meistern. SFT zeigt vielversprechende Ansätze, degeneriert jedoch oft in das Memorieren von Mustern, was zu schlechten Leistungen außerhalb der Verteilung bei komplexen Denkaufgaben führt. Um diese Lücken zu schließen, stellen wir CReFT-CAD vor, ein zweistufiges Fine-Tuning-Paradigma, das zunächst eine curriculum-gesteuerte Verstärkungslernphase mit schwierigkeitssensitiven Belohnungen anwendet, um die Denkfähigkeit schrittweise aufzubauen, und anschließend ein überwacht nachjustieren zur Verfeinerung der Befehlsbefolgung und semantischen Extraktion anwendet. Ergänzend dazu veröffentlichen wir TriView2CAD, die erste umfangreiche, Open-Source-Benchmark für das orthografische Projektionsdenken, die 200.000 synthetische und 3.000 reale orthografische Projektionen mit präzisen Maßannotationen und sechs interoperablen Datenmodalitäten umfasst. Wir benchmarken führende VLMs im orthografischen Projektionsdenken und zeigen, dass CReFT-CAD die Genauigkeit des Denkens und die Generalisierbarkeit außerhalb der Verteilung in realen Szenarien erheblich verbessert, was wertvolle Einblicke für den Fortschritt der Forschung im Bereich CAD-Denken bietet.
Niu et al. (Sat,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: