April 2, 2020Open Access

Pixel-BERT: Ausrichten von Bildpixeln mit Text durch tiefe multimodale Transformer

Key Points

Key points are not available for this paper at this time.

Abstract

Wir schlagen Pixel-BERT vor, um Bildpixel mit Text durch tiefe multimodale Transformer auszurichten, die visuelle und sprachliche Einbettungen in einem einheitlichen End-to-End-Rahmen gemeinsam lernen. Unser Ziel ist es, eine genauere und umfassendere Verbindung zwischen Bildpixeln und Sprachsemantik direkt aus Paaren von Bildern und Sätzen aufzubauen, anstatt regionenbasierte Bildmerkmale wie bei den jüngsten Aufgaben der visuellen und sprachlichen Verarbeitung zu verwenden. Unser Pixel-BERT, der die semantische Verbindung auf Pixel- und Textebene anpasst, löst die Einschränkung der aufgaben spezifischen visuellen Repräsentation für visuelle und sprachliche Aufgaben. Es reduziert auch die Kosten für Begrenzungsrahmen-Anmerkungen und überwindet das Ungleichgewicht zwischen semantischen Labels in visuellen Aufgaben und sprachlicher Semantik. Um eine bessere Repräsentation für nachgelagerte Aufgaben zu bieten, trainieren wir ein universelles End-to-End-Modell mit Bild- und Satzpaaren aus dem Visual Genome-Datensatz und dem MS-COCO-Datensatz vor. Wir schlagen vor, einen zufälligen Pixel-Stichprobenmechanismus zu verwenden, um die Robustheit der visuellen Repräsentation zu erhöhen, und die Masked Language Model- und Image-Text-Matching-Aufgaben als Vortraining zu verwenden. Umfangreiche Experimente mit unserem vortrainierten Modell zeigen, dass unser Ansatz die aktuellsten Ergebnisse in nachgelagerten Aufgaben erzielt, einschließlich Visual Question Answering (VQA), Bild-Text-Retrieval und Natural Language for Visual Reasoning for Real (NLVR). Insbesondere steigern wir die Leistung eines einzelnen Modells in der VQA-Aufgabe um 2,17 Punkte im Vergleich zu SOTA unter fairen Vergleichen.

Bookmark

View Full Paper