What type of study is this?

This is a Quantitative Study study.

September 12, 2025Open Access

Physik-inspirierter selbstlernfähiger Rahmen für unüberwachtes Tiefenverständnis auf nicht-Lambertianischen Oberflächen

Key Points

Der vorgeschlagene Rahmen verbessert die Genauigkeit der Tiefenbestimmung, indem er sich mit nicht-Lambertianischen Oberflächen und Geisterartefakten befasst.
Mit durchschnittlichen Verbesserungen von 9,29 % und 2,86 % bei den Sq Rel- und RMSE-Metriken zeigt das Modell signifikante Leistungsgewinne.
Durch die Nutzung von Tiefenkonsistenzverlust und einem Multi-Path Transformer kombiniert der Ansatz photometrische Annahmen und spieltheoretische Strategien.
Die Methode zeigt auch starke Zero-Shot-Generalisiertenfähigkeiten, was auf ihre Vielseitigkeit über verschiedene Datensätze hinweg hinweist.

Abstract

Die Vorhersage der Szenentiefe aus monokularen Bildern ist entscheidend in Bereichen wie räumlicher Wahrnehmung und Computer Vision. Unüberwachte Tiefenbestimmungsmethoden, die auf Sichtsynthetisierung basieren, ignorieren jedoch oft die signifikante Auswirkung nicht-Lambertianischer Oberflächen und Geisterartefakte. In dieser Studie schlagen wir einen selbstlernenden Tiefenrekonstruktionsrahmen vor. Dieser Rahmen führt einen Tiefenkonsistenzverlust ein, um das Scheitern der photometrischen Annahme in nicht-Lambertianischen Regionen auszugleichen. Zusätzlich entwerfen wir einen intrinsischen Konsistenzverlust, der Varianz als spieltheoretische Strategie nutzt, um die Robustheit unseres Modells sicherzustellen. Schließlich führen wir eine physik-inspirierte Geistermaske ein, um Geisterartefakte zu eliminieren. Wir entwerfen auch eine Multi-Path Transformer-Schicht, die die Fähigkeit des Transformers zur globalen Abhängigkeitsmodellierung in CNNs integriert und somit die Leistung des Modells verbessert. Experimentelle Ergebnisse zeigen, dass unser Modell in nicht-Lambertianischen Regionen hervorragende Leistungen erzielt. Im Vergleich zu modernsten Methoden, die lediglich auf der photometrischen Annahme basieren, erzielt unsere Methode durchschnittliche Verbesserungen von 9,29 % und 2,86 % bei den Sq Rel- und RMSE-Metriken über drei Netzwerkmodelle hinweg. Darüber hinaus zeigt es herausragende Zero-Shot-Generalizierungsfähigkeit auf externen Datensätzen. Der Quellcode ist erhältlich unter https://github.com/IkeFwd/Icdepth.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper