What question did this study set out to answer?

This research aims to enhance vision-language retrieval tasks across diverse domains using a novel approach.

March 23, 2026Open Access

Contrastive Multimodal Models for Zero-Shot Cross-Domain Vision-Language Retrieval

Key Points

This research aims to enhance vision-language retrieval tasks across diverse domains using a novel approach.
Developed Contrastive Multimodal Transformer with Domain-Adaptive Pretraining (CMT-DAP)
Utilized large-scale unlabeled image-text pairs for training
Applied a contrastive learning stage to achieve invariant embeddings
CMT-DAP significantly outperformed existing methods in retrieval accuracy
Improved robustness to domain shifts was observed
Demonstrated enhanced semantic consistency in retrieval results

Abstract

Contrastive Multimodal Transformers for Zero-Shot Cross-Domain Vision-Language Retrieval Tasks focus on aligning heterogeneous modalities to retrieve semantically related content without explicit training on the target domain. This paradigm enhances the adaptability of retrieval models across diverse visual and textual datasets. However, existing methods often suffer from weak cross-domain generalization due to distributional shifts between training and unseen domains. They also struggle with limited alignment quality, as visual and textual embeddings fail to capture domain-specific semantics effectively. To address these challenges, we propose the Contrastive Multimodal Transformer with Domain-Adaptive Pretraining (CMT-DAP). The framework integrates multimodal transformers with a domain-adaptive contrastive learning stage, where large-scale unlabeled image–text pairs from multiple domains are leveraged to learn invariant embeddings. This ensures robust semantic alignment across modalities while improving zero-shot generalization. The proposed method can be effectively applied in areas such as medical image–report retrieval, cross-lingual multimedia search, and e-commerce product–review alignment. Specifically, it enables retrieval of accurate and semantically relevant results even when the target domain differs from the training domain. Experimental findings demonstrate that CMT-DAP outperforms existing approaches in retrieval accuracy, robustness to domain shifts, and semantic consistency, establishing it as a promising solution for cross-domain multimodal applications.

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Dewangan et al. (Thu,) studied this question.

synapsesocial.com/papers/69c0ddb8fddb9876e79c11eb https://doi.org/https://doi.org/10.1016/j.procs.2026.01.017

Bookmark

View Full Paper