Le pré-entraînement langage-image dépend largement de la précision et de l'exhaustivité avec lesquelles un texte décrit son image associée. En pratique, cependant, le contenu d'une image peut être si riche que bien le décrire nécessite des légendes longues (par exemple, avec 10 phrases), ce qui manque généralement dans les ensembles de données existants. Par conséquent, il n'existe actuellement aucune preuve claire sur la question de savoir si et comment le pré-entraînement langage-image pourrait bénéficier de légendes longues. Pour répondre à cette question, nous avons d'abord re-légendé 30 millions d'images avec des descriptions détaillées en utilisant un Modèle de Langage Large Multi-modal (MLLM) pré-entraîné, puis étudié l'utilisation des légendes obtenues dans un cadre d'apprentissage contrastif. Nous observons que chaque phrase d'une longue légende décrit très probablement partiellement l'image (par exemple, un objet). Motivés par cela, nous proposons d'échantillonner dynamiquement des sous-légendes du texte pour construire plusieurs paires positives, et introduisons une perte de regroupement pour associer les embeddings de chaque sous-légende avec ses patchs d'image locaux correspondants de manière auto-supervisée. Les résultats expérimentaux sur un large éventail de tâches en aval démontrent la supériorité constante de notre méthode, appelée DreamLIP, par rapport aux alternatives précédentes, soulignant sa capacité de représentation fine. Il est à noter que, sur les tâches de récupération image-texte et de segmentation sémantique, notre modèle entraîné avec 30 millions de paires image-texte atteint des performances équivalentes voire supérieures à CLIP entraîné avec 400 millions de paires. La page du projet est disponible à l'adresse https://zyf0619sjtu.github.io/dream-lip.
Zheng et al. (Mon,) ont étudié cette question.