Key points are not available for this paper at this time.
Der zentrale Punkt der sprachgeführten Personensuche besteht darin, die multimodale Assoziation zwischen visuellen und textlichen Eingaben zu konstruieren. Bestehende Methoden konzentrieren sich auf das Design multimodaler Aufmerksamkeitsmechanismen und neuartiger multimodaler Verlustfunktionen, um solche Assoziationen implizit zu lernen. Wir schlagen eine Methode zum Repräsentationslernen für sprachgeführte Personensuche basierend auf Farbverarbeitung (LapsCore) vor. Diese kann explizit eine feinkörnige multimodale Assoziation bidirektional aufbauen. Konkret wird ein Paar von dualen Teilaufgaben, Bildkolorierung und Textvervollständigung, entworfen. In der ersten Aufgabe wird reichhaltige Textinformation gelernt, um graue Bilder zu kolorieren, und in der zweiten Aufgabe muss das Modell das Bild verstehen und Farbwörter in den Bildunterschriften vervollständigen. Die beiden Teilaufgaben ermöglichen es den Modellen, korrekte Ausrichtungen zwischen Textphrasen und Bildbereichen zu lernen, sodass reichhaltige multimodale Repräsentationen erlernt werden können. Umfassende Experimente auf mehreren Datensätzen zeigen die Effektivität und Überlegenheit der vorgeschlagenen Methode.
Wu et al. (Fr,) untersuchten diese Frage.