Gestapelte Aufmerksamkeitsnetzwerke für die Beantwortung von Fragen zu Bildern

Key Points

Key points are not available for this paper at this time.

Abstract

Dieses Papier präsentiert gestapelte Aufmerksamkeitsnetzwerke (SANs), die lernen, natürliche Sprachfragen aus Bildern zu beantworten. SANs verwenden die semantische Darstellung einer Frage als Abfrage, um die Regionen in einem Bild zu finden, die mit der Antwort zusammenhängen. Wir argumentieren, dass die Beantwortung von Fragen zu Bildern (QA) oft mehrere Schritte des Schließens erfordert. Daher entwickeln wir ein mehrschichtiges SAN, bei dem wir ein Bild mehrfach abfragen, um die Antwort schrittweise zu inferieren. Experimente, die an vier Bild-QA-Datensätzen durchgeführt wurden, zeigen, dass die vorgeschlagenen SANs die vorherigen Stand der Technik Ansätze erheblich übertreffen. Die Visualisierung der Aufmerksamkeitslayer veranschaulicht den Fortschritt, den das SAN macht, um die relevanten visuellen Hinweise zu finden, die zur Antwort der Frage schrittweise führen.

Bookmark

View Full Paper

Bookmark

View Full Paper

Gestapelte Aufmerksamkeitsnetzwerke für die Beantwortung von Fragen zu Bildern

Key Points

Abstract

Cite This Study