Key points are not available for this paper at this time.
La connexion des modalités textuelles et visuelles joue un rôle essentiel dans l'intelligence générative. Pour cette raison, inspirés par le succès des grands modèles de langage, d'importants efforts de recherche sont consacrés au développement des Modèles de Langage Large Multimodaux (MLLMs). Ces modèles peuvent intégrer de manière fluide les modalités visuelle et textuelle, à la fois en entrée et en sortie, tout en fournissant une interface basée sur le dialogue et des capacités d'exécution d'instructions. Dans cet article, nous fournissons une revue complète des MLLMs récents basés sur le visuel, en analysant leurs choix architecturaux, leurs stratégies d'alignement multimodal et leurs techniques d'entraînement. Nous réalisons également une analyse détaillée de ces modèles à travers un large éventail de tâches, incluant l'ancrage visuel, la génération et l'édition d'images, la compréhension visuelle et les applications spécifiques à un domaine. De plus, nous compilons et décrivons les ensembles de données d'entraînement et les benchmarks d'évaluation, en réalisant des comparaisons entre les modèles existants en termes de performance et d'exigences computationnelles. Globalement, cette revue offre une vue d'ensemble complète de l'état actuel de l'art, posant les bases pour les futurs MLLMs.
Caffagni et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: