Key points are not available for this paper at this time.
Dieses Papier präsentiert gestapelte Aufmerksamkeitsnetzwerke (SANs), die lernen, natürliche Sprachfragen aus Bildern zu beantworten. SANs verwenden die semantische Darstellung einer Frage als Abfrage, um die Regionen in einem Bild zu finden, die mit der Antwort zusammenhängen. Wir argumentieren, dass die Beantwortung von Fragen zu Bildern (QA) oft mehrere Schritte des Schließens erfordert. Daher entwickeln wir ein mehrschichtiges SAN, bei dem wir ein Bild mehrfach abfragen, um die Antwort schrittweise zu inferieren. Experimente, die an vier Bild-QA-Datensätzen durchgeführt wurden, zeigen, dass die vorgeschlagenen SANs die vorherigen Stand der Technik Ansätze erheblich übertreffen. Die Visualisierung der Aufmerksamkeitslayer veranschaulicht den Fortschritt, den das SAN macht, um die relevanten visuellen Hinweise zu finden, die zur Antwort der Frage schrittweise führen.
Yang et al. (Sat,) untersuchten diese Frage.