L'évolution rapide de l'apprentissage de la représentation multimodale a donné lieu à des systèmes visuel-langage (V) de plus en plus puissants, réussissant de manière remarquable dans diverses tâches en aval. Pourtant, la plupart des solutions actuelles sont fondamentalement contraintes par leur dépendance à de grands corpus parallèles, où chaque image est associée à une légende manuellement élaborée. La construction de tels ensembles de données est non seulement coûteuse en ressources mais également mal adaptée aux scénarios spécifiques aux domaines ou à faibles ressources. Dans cette étude, nous présentons VISTRA (Alignement de Représentation VISion-Text), un nouveau paradigme pour le pré-entraînement de V qui contourne la nécessité de données explicitement alignées. S'inspirant de recherches sur la traduction automatique non supervisée et l'apprentissage d'embeddings multilingues, VISTRA intègre un mécanisme de reconstruction masquée à double modalité avec des ancres sémantiques extraites de pipelines de détection d'objets. Ces ancres fonctionnent comme des pivots indépendants de la modalité, permettant un ancrage implicite inter-modal même en l'absence de correspondance directe. Nos expériences sur quatre benchmarks anglais largement adoptés démontrent que VISTRA égalise systématiquement, et dans certains cas surpassent, la performance de modèles supervisés entraînés avec des paires image-légende alignées. Au-delà de sa compétitivité empirique, notre approche expose la structure géométrique latente des espaces multimodaux, révélant que des corpus disjoints peuvent, avec l'aide de l'ancrage sémantique, soutenir un alignement de représentation efficace. Ce travail réduit donc non seulement la dépendance à une annotation coûteuse, mais souligne également la faisabilité de construire des modèles V évolutifs et transférables à partir de ressources multimodales non appariées.
Janssens et al. (jeu,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: