July 1, 2017

Wissen, wann man schauen sollte: Adaptive Aufmerksamkeit über einen visuellen Wächter für die Bildunterschrift

Key Points

Key points are not available for this paper at this time.

Abstract

Aufmerksamkeitbasierte neuronale Encoder-Decoder-Rahmen werden häufig für die Bildunterschrift verwendet. Die meisten Methoden zwingen die visuelle Aufmerksamkeit, für jedes generierte Wort aktiv zu sein. Der Decoder benötigt jedoch wahrscheinlich wenig bis gar keine visuellen Informationen aus dem Bild, um nicht-visuelle Wörter wie 'the' und 'of' vorherzusagen. Andere Wörter, die visuell erscheinen mögen, können oft zuverlässig nur aus dem Sprachmodell vorhergesagt werden, z. B. 'zeichen nach hinter einem roten Stopp' oder 'telefon nach sprechen am Handy'. In diesem Papier schlagen wir ein neuartiges Modell für adaptive Aufmerksamkeit mit einem visuellen Wächter vor. In jedem Zeitschritt entscheidet unser Modell, ob es auf das Bild (und wenn ja, auf welche Regionen) oder auf den visuellen Wächter achten soll. Das Modell entscheidet, ob es auf das Bild und wo es achtet, um bedeutungsvolle Informationen für die sequenzielle Wortgenerierung zu extrahieren. Wir testen unsere Methode an den COCO Bildunterschrift 2015 Herausforderungsdatensatz und Flickr30K. Unser Ansatz setzt den neuen Stand der Technik mit einem signifikanten Abstand.

Wissen, wann man schauen sollte: Adaptive Aufmerksamkeit über einen visuellen Wächter für die Bildunterschrift

Key Points

Abstract

Cite This Study

Also Consider

Also Consider