What type of study is this?

This is a Experimental Study study.

October 5, 2025Open Access

SeMoBridge : Pont de Modalité Sémantique pour une Adaptation Efficace en Few-Shot de CLIP

Key Points

SeMoBridge surpasse les méthodes existantes dans la classification à quelques coups en réduisant le désalignement.
La méthode maintient le contenu sémantique tout en mappant les images dans la modalité texte pour un meilleur alignement.
SeMoBridge peut être entraîné avec une supervision multimodale, combinant les pertes d'alignement d'images et de texte.
Les expériences montrent des améliorations significatives avec seulement une fraction du temps d'entraînement dans des scénarios à faible donnée.

Abstract

Alors que l'entraînement contrastif de langage et d'images (CLIP) excelle dans les tâches à zéro coup en alignant les embeddings d'images et de texte, sa performance dans la classification à quelques coups est entravée par une limitation critique : le désalignement intra-modal. Ce problème, causé par un écart de modalité persistant et l'objectif d'entraînement exclusivement inter-modal de CLIP, laisse les espaces d'embedding non calibrés, rendant les comparaisons directes d'images peu fiables. Les méthodes existantes tentent de résoudre ce problème en affinant les logits de similarité ou par une optimisation coûteuse par échantillon. Pour surmonter ces défis, nous introduisons SeMoBridge, une approche légère mais puissante qui s'attaque directement au désalignement. Notre méthode mappe les images dans la modalité texte, tout en conservant leur contenu sémantique grâce à ce que nous appelons un Pont de Modalité Sémantique. SeMoBridge est en forme fermée et peut être entraîné de manière optionnelle via une supervision multimodale, combinant les pertes d'alignement d'images et de texte pour optimiser la projection. Les expériences montrent que la version entraînée, SeMoBridge-T, nécessite seulement une fraction du temps d'entraînement tout en surpassant globalement d'autres méthodes, en particulier dans des scénarios à faible donnée (1, 2 et 4 coups). Le code est disponible à l'adresse https://github.com/christti98/semobridge.

SeMoBridge : Pont de Modalité Sémantique pour une Adaptation Efficace en Few-Shot de CLIP

Key Points

Abstract

Cite This Study