Key points are not available for this paper at this time.
Nous présentons une nouvelle technique pour apprendre des embeddings visuels-sémantiques pour la récupération cross-modale. Inspirée par le mining de négatifs difficiles, l'utilisation de négatifs difficiles dans la prédiction structurée et les fonctions de perte de classement, nous introduisons un changement simple aux fonctions de perte couramment utilisées pour les embeddings multimodaux. Cela, associé à un ajustement fin et à l'utilisation de données augmentées, entraîne des gains significatifs en performance de récupération. Nous mettons en avant notre approche, VSE++, sur les ensembles de données MS-COCO et Flickr30K, en utilisant des études d'ablation et des comparaisons avec des méthodes existantes. Sur MS-COCO, notre approche surpasse les méthodes de pointe de 8,8 % en récupération de légendes et de 11,3 % en récupération d'images (à R@1).
Faghri et al. (mar,) ont étudié cette question.