Key points are not available for this paper at this time.
Unsupervised monokulare Tiefenabschätzung hat aufgrund ihrer Fähigkeit, ohne Grundwahrheit zu trainieren, große Aufmerksamkeit erhalten. In realen Szenarien können die Bilder aufgrund von Wetterbedingungen und den inherent begrenzten Möglichkeiten der Kamera verschwommen oder verrauscht sein. Daher ist es besonders wichtig, ein robustes Tiefenabschätzungsmodell zu entwickeln. Durch die Trainingsstrategien von generativen Netzwerken zeigen generative basierte Methoden oft eine verbesserte Robustheit. In Anbetracht dessen verwenden wir ein gut konvergierendes Diffusionsmodell unter generativen Netzwerken für die unsupervised monokulare Tiefenabschätzung. Zusätzlich schlagen wir ein hierarchisches, merkmalsgeführtes Denoising-Modul vor. Dieses Modell bereichert die Fähigkeit des Modells, Tiefenverteilungen zu lernen und zu interpretieren, erheblich, indem es die Bildmerkmale vollständig nutzt, um den Denoising-Prozess zu leiten. Darüber hinaus erkunden wir die implizite Tiefe innerhalb der Reprojektion und entwerfen einen impliziten Tiefenkonsistenzverlust. Diese Verlustfunktion dient dazu, die Leistung des Modells zu verbessern und die Skalenkonsistenz der Tiefe innerhalb einer Videoaufnahme sicherzustellen. Wir führen Experimente an den KITTI-, Make3D- und unseren selbst gesammelten SIMIT-Datensätzen durch. Die Ergebnisse zeigen, dass unser Ansatz sich unter generativen Modellen abhebt und gleichzeitig bemerkenswerte Robustheit zeigt.
Liu et al. (Fri,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: