Key points are not available for this paper at this time.
Das visuelle Verständnis komplexer städtischer Straßenszenen ist ein entscheidender Faktor für eine Vielzahl von Anwendungen. Die Objekterkennung hat enorm von großangelegten Datensätzen profitiert, insbesondere im Kontext des tiefen Lernens. Für das semantische Verständnis städtischer Szenen gibt es jedoch derzeit keinen Datensatz, der die Komplexität realer städtischer Szenen angemessen erfasst. Um dies zu adressieren, stellen wir Cityscapes vor, eine Benchmark-Suite und einen großangelegten Datensatz, um Ansätze für die semantische Kennzeichnung auf Pixel- und Instanzebene zu trainieren und zu testen. Cityscapes besteht aus einer großen, vielfältigen Sammlung von Stereo-Videosequenzen, die in Straßen von 50 verschiedenen Städten aufgezeichnet wurden. 5000 dieser Bilder verfügen über hochqualitative Pixelannotations; 20000 zusätzliche Bilder haben grobe Annotationen, um Methoden zu ermöglichen, die große Mengen schwach gekennzeichneter Daten nutzen. Entscheidenderweise übertrifft unser Aufwand frühere Versuche in Bezug auf Datensatzgröße, Anreicherungsgrad der Annotationen, Szenenvariation und Komplexität. Unsere begleitende empirische Studie bietet eine eingehende Analyse der Datensatzmerkmale sowie eine Leistungsbewertung mehrerer hochmoderner Ansätze basierend auf unserer Benchmark.
Marius Cordts (Mittwoch) hat diese Frage untersucht.