What type of study is this?

This is a Experimental Study study.

September 12, 2025Open Access

Sémantique émergente des modalités disjointes : ancrage visuel-langage inter-domaines non supervisé

Key Points

VISTRA permet un ancrage inter-modal efficace sans besoin de paires image-légende alignées.
Les expériences montrent que VISTRA égalise ou dépasse les modèles supervisés, améliorant ainsi les benchmarks existants.
Cette approche repose sur des ancres sémantiques provenant de la détection d'objets, réduisant la dépendance aux données étiquetées.
L'utilisation de corpus disjoints permet un alignement de représentation évolutif, ouvrant la voie à des modèles multimodaux améliorés.

Abstract

L'évolution rapide de l'apprentissage de la représentation multimodale a donné lieu à des systèmes visuel-langage (V) de plus en plus puissants, réussissant de manière remarquable dans diverses tâches en aval. Pourtant, la plupart des solutions actuelles sont fondamentalement contraintes par leur dépendance à de grands corpus parallèles, où chaque image est associée à une légende manuellement élaborée. La construction de tels ensembles de données est non seulement coûteuse en ressources mais également mal adaptée aux scénarios spécifiques aux domaines ou à faibles ressources. Dans cette étude, nous présentons VISTRA (Alignement de Représentation VISion-Text), un nouveau paradigme pour le pré-entraînement de V qui contourne la nécessité de données explicitement alignées. S'inspirant de recherches sur la traduction automatique non supervisée et l'apprentissage d'embeddings multilingues, VISTRA intègre un mécanisme de reconstruction masquée à double modalité avec des ancres sémantiques extraites de pipelines de détection d'objets. Ces ancres fonctionnent comme des pivots indépendants de la modalité, permettant un ancrage implicite inter-modal même en l'absence de correspondance directe. Nos expériences sur quatre benchmarks anglais largement adoptés démontrent que VISTRA égalise systématiquement, et dans certains cas surpassent, la performance de modèles supervisés entraînés avec des paires image-légende alignées. Au-delà de sa compétitivité empirique, notre approche expose la structure géométrique latente des espaces multimodaux, révélant que des corpus disjoints peuvent, avec l'aide de l'ancrage sémantique, soutenir un alignement de représentation efficace. Ce travail réduit donc non seulement la dépendance à une annotation coûteuse, mais souligne également la faisabilité de construire des modèles V évolutifs et transférables à partir de ressources multimodales non appariées.

Sémantique émergente des modalités disjointes : ancrage visuel-langage inter-domaines non supervisé

Key Points

Abstract

Cite This Study

Also Consider

Also Consider