October 1, 2021

LapsCore: Sprachgeführte Personensuche über Farbverarbeitung

Key Points

Key points are not available for this paper at this time.

Abstract

Der zentrale Punkt der sprachgeführten Personensuche besteht darin, die multimodale Assoziation zwischen visuellen und textlichen Eingaben zu konstruieren. Bestehende Methoden konzentrieren sich auf das Design multimodaler Aufmerksamkeitsmechanismen und neuartiger multimodaler Verlustfunktionen, um solche Assoziationen implizit zu lernen. Wir schlagen eine Methode zum Repräsentationslernen für sprachgeführte Personensuche basierend auf Farbverarbeitung (LapsCore) vor. Diese kann explizit eine feinkörnige multimodale Assoziation bidirektional aufbauen. Konkret wird ein Paar von dualen Teilaufgaben, Bildkolorierung und Textvervollständigung, entworfen. In der ersten Aufgabe wird reichhaltige Textinformation gelernt, um graue Bilder zu kolorieren, und in der zweiten Aufgabe muss das Modell das Bild verstehen und Farbwörter in den Bildunterschriften vervollständigen. Die beiden Teilaufgaben ermöglichen es den Modellen, korrekte Ausrichtungen zwischen Textphrasen und Bildbereichen zu lernen, sodass reichhaltige multimodale Repräsentationen erlernt werden können. Umfassende Experimente auf mehreren Datensätzen zeigen die Effektivität und Überlegenheit der vorgeschlagenen Methode.

KI fragen

Bookmark

KI fragen

Bookmark

LapsCore: Sprachgeführte Personensuche über Farbverarbeitung

Key Points

Abstract

Cite This Study