November 25, 2020Open Access

Sparse R-CNN: End-to-End-Objekterkennung mit lernbaren Vorschlägen

Key Points

Key points are not available for this paper at this time.

Abstract

Wir präsentieren Sparse R-CNN, eine rein spärliche Methode zur Objekterkennung in Bildern. Die bestehenden Arbeiten zur Objekterkennung basieren stark auf dichten Objektkandidaten, wie k Ankerboxen, die auf allen Gitterpunkten der Bildmerkmalskarte der Größe H W vordefiniert sind. In unserer Methode wird jedoch ein festes spärliches Set aus gelernten Objektevorschlägen, insgesamt N, dem Objekterkennungsmodul bereitgestellt, um Klassifikation und Lokalisierung durchzuführen. Durch die Eliminierung von HWk (bis zu Hunderttausenden) handgestalteten Objektkandidaten auf N (z. B. 100) lernbare Vorschläge vermeidet Sparse R-CNN vollständig alle Bemühungen, die mit dem Design von Objektkandidaten und der Zuordnung von vielen zu einem Label verbunden sind. Noch wichtiger ist, dass die finalen Vorhersagen direkt ohne Nachverarbeitung durch nicht-maximale Unterdrückung ausgegeben werden. Sparse R-CNN zeigt eine Genauigkeit, Laufzeit und Trainingskonvergenzleistung, die mit den etablierten Detektor-Baselines auf dem herausfordernden COCO-Datensatz vergleichbar ist, z. B. erreichen wir 45. 0 AP im Standard-3-Trainingsschema und laufen bei 22 fps mit dem ResNet-50 FPN-Modell. Wir hoffen, dass unsere Arbeit dazu beitragen kann, die Konvention des dichten Priors in Objekterkennungssystemen neu zu überdenken. Der Code ist verfügbar unter: https: //github. com/PeizeSun/SparseR-CNN.

Bookmark

View Full Paper