Alors que l'entraînement contrastif de langage et d'images (CLIP) excelle dans les tâches à zéro coup en alignant les embeddings d'images et de texte, sa performance dans la classification à quelques coups est entravée par une limitation critique : le désalignement intra-modal. Ce problème, causé par un écart de modalité persistant et l'objectif d'entraînement exclusivement inter-modal de CLIP, laisse les espaces d'embedding non calibrés, rendant les comparaisons directes d'images peu fiables. Les méthodes existantes tentent de résoudre ce problème en affinant les logits de similarité ou par une optimisation coûteuse par échantillon. Pour surmonter ces défis, nous introduisons SeMoBridge, une approche légère mais puissante qui s'attaque directement au désalignement. Notre méthode mappe les images dans la modalité texte, tout en conservant leur contenu sémantique grâce à ce que nous appelons un Pont de Modalité Sémantique. SeMoBridge est en forme fermée et peut être entraîné de manière optionnelle via une supervision multimodale, combinant les pertes d'alignement d'images et de texte pour optimiser la projection. Les expériences montrent que la version entraînée, SeMoBridge-T, nécessite seulement une fraction du temps d'entraînement tout en surpassant globalement d'autres méthodes, en particulier dans des scénarios à faible donnée (1, 2 et 4 coups). Le code est disponible à l'adresse https://github.com/christti98/semobridge.
Timmermann et al. (Tue,) ont étudié cette question.