Key points are not available for this paper at this time.
Les récents grands modèles de vision-langage (LVLM) démontrent des capacités impressionnantes sur de nombreuses tâches de compréhension et de raisonnement d'images. Cependant, la tâche de classification précise des objets (par exemple, distinction entre espèces animales) a été insuffisamment explorée, malgré son importance en aval. Nous comblons cette lacune d’évaluation en créant FOCI (Fine-grained Object ClassIfication), une référence difficile en choix multiples pour la classification précise des objets, à partir des ensembles de données existants sur la classification des objets : (1) le format à choix multiples évite les réponses ambiguës associées à la classification sous forme de tâche de QA ouverte ; (2) nous maintenons la difficulté de classification en extrayant des étiquettes négatives avec un modèle CLIP. FOCI complète cinq ensembles de données de classification populaires avec quatre sous-ensembles spécifiques à un domaine issus d'ImageNet-21k. Nous évaluons 12 LVLM publics sur FOCI et montrons qu'il teste une compétence complémentaire aux références établies de compréhension et de raisonnement d'images. Crucialement, les modèles CLIP montrent des performances nettement meilleures que les LVLM. Étant donné que les encodeurs d'images des LVLM proviennent de ces modèles CLIP, cela indique un alignement inadéquat pour la distinction précise des objets entre l'encodeur et le LLM et justifie des données de (pré)formation avec une annotation plus précise. Nous publions notre code sur https://github.com/gregor-ge/FOCI-Benchmark.
Geigle et al. (jeu), ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: