Key points are not available for this paper at this time.
Aufmerksamkeitbasierte neuronale Encoder-Decoder-Rahmen werden häufig für die Bildunterschrift verwendet. Die meisten Methoden zwingen die visuelle Aufmerksamkeit, für jedes generierte Wort aktiv zu sein. Der Decoder benötigt jedoch wahrscheinlich wenig bis gar keine visuellen Informationen aus dem Bild, um nicht-visuelle Wörter wie 'the' und 'of' vorherzusagen. Andere Wörter, die visuell erscheinen mögen, können oft zuverlässig nur aus dem Sprachmodell vorhergesagt werden, z. B. 'zeichen nach hinter einem roten Stopp' oder 'telefon nach sprechen am Handy'. In diesem Papier schlagen wir ein neuartiges Modell für adaptive Aufmerksamkeit mit einem visuellen Wächter vor. In jedem Zeitschritt entscheidet unser Modell, ob es auf das Bild (und wenn ja, auf welche Regionen) oder auf den visuellen Wächter achten soll. Das Modell entscheidet, ob es auf das Bild und wo es achtet, um bedeutungsvolle Informationen für die sequenzielle Wortgenerierung zu extrahieren. Wir testen unsere Methode an den COCO Bildunterschrift 2015 Herausforderungsdatensatz und Flickr30K. Unser Ansatz setzt den neuen Stand der Technik mit einem signifikanten Abstand.
Lu et al. (Sat,) untersuchten diese Frage.
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: