Key points are not available for this paper at this time.
Nous proposons VisualBERT, un cadre simple et flexible pour modéliser un large éventail de tâches associant vision et langage. VisualBERT consiste en une pile de couches Transformer qui alignent implicitement des éléments d'un texte d'entrée et des régions d'une image d'entrée associée via l'attention autonome. Nous proposons en outre deux objectifs de modèle de langage ancrés visuellement pour le pré-entraînement de VisualBERT sur des données de légendes d'images. Des expériences sur quatre tâches de vision et langage, incluant VQA, VCR, NLVR2 et Flickr30K, montrent que VisualBERT surpasse ou rivalise avec des modèles à l'état de l'art tout en étant significativement plus simple. Une analyse plus poussée démontre que VisualBERT peut associer des éléments du langage à des régions d'image sans supervision explicite et est même sensible aux relations syntaxiques, suivant par exemple les associations entre verbes et régions d'image correspondant à leurs arguments.
Li et al. (Fri,) ont étudié cette question.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: