Wir präsentieren eine neuartige Erkennungsmethode unter Verwendung eines tiefen konvolutionalen neuronalen Netzwerks (CNN) mit dem Namen AttentionNet. Wir formulieren ein Objekterkennungsproblem als ein iteratives Klassifikationsproblem, welches die passendste Form eines CNN ist. AttentionNet bietet quantisierte schwache Richtungen, die auf ein Zielobjekt zeigen, und das Ensemble der iterativen Vorhersagen von AttentionNet konvergiert zu einer genauen Objektgrenze. Da AttentionNet ein einheitliches Netzwerk für die Objekterkennung ist, erkennt es Objekte, ohne dass separate Modelle vom Objektvorschlag bis zur nachgelagerten Begrenzungsrahmenregression erforderlich sind. Wir evaluieren AttentionNet anhand einer menschlichen Erkennungsaufgabe und erreichen eine marktgerechte Leistung von 65 % (AP) auf PASCAL VOC 2007/2012 mit lediglich einer 8-schichtigen Architektur.
Yoo et al. (Tue,) untersuchten diese Frage.