L'intégration de différentes modalités dans les modèles d'apprentissage profond facilite l'incorporation de diverses formes de données telles que les images et le texte, ce qui améliore la performance des tâches multimodales. Ces modèles abordent des problématiques telles que la représentation des caractéristiques, l'alignement des modalités et les stratégies de fusion. L'état de l'art utilise des architectures contrastives telles que CLIP, ALIGN, des transformeurs vision-langage comme ViLT et Flamingo, ainsi que d'autres composants hybrides pour renforcer le raisonnement intermodal. Les tâches incluent la légende d'image, la question-réponse visuelle et la recherche multimodale. Les objectifs suivants combinent architectures avec efficacité dans l'entraînement et techniques d'alignement. L'apprentissage multimodal est essentiel pour repousser les limites de l'IA et ses applications dans la compréhension de la nature multifacette du monde réel.
Rathnavel et al. (jeu,) ont étudié cette question.