Key points are not available for this paper at this time.
In diesem Papier behandeln wir drei verschiedene Computer Vision Aufgaben mit einer einzigen Basisarchitektur: Tiefenvorhersage, Schätzung der Oberflächen-Normalen und semantische Beschriftung. Wir verwenden ein multiskalierendes konvolutionales Netzwerk, das sich leicht an jede Aufgabe anpassen lässt, indem es nur kleine Modifikationen vornimmt, und direkt vom Eingabebild zur Ausgabekarte zurückregressiert. Unsere Methode verfeinert die Vorhersagen schrittweise mit einer Folge von Skalen und erfasst viele Bilddetails ohne Superpixel oder eine segmentierung auf niedriger Ebene. Wir erreichen eine Spitzenleistung bei den Benchmarktests für alle drei Aufgaben.
Eigen et al. (Tue,) haben diese Frage untersucht.