Key points are not available for this paper at this time.
Cet article représente la première tentative d'alignement de préférence non supervisé dans les Modèles Vision-Langage (VLMs). Nous générons des réponses choisies et rejetées en fonction des paires d'images originales et augmentées, et effectuons l'alignement de préférence avec une optimisation directe de préférence. Cela repose sur une idée centrale : une augmentation correctement conçue de l'entrée image incitera le VLM à générer de fausses mais difficiles réponses négatives, ce qui aide le modèle à apprendre et à produire des réponses plus robustes et puissantes. L'ensemble du pipeline ne dépend plus de la supervision de GPT-4 ou de l'implication humaine pendant l'alignement, et est très efficace avec peu de lignes de code. Avec seulement 8k données non supervisées échantillonnées au hasard, il atteint un score relatif de 90\% par rapport à GPT-4 sur le raisonnement complexe dans LLaVA-Bench, et améliore LLaVA-7B/13B de 6.7\%/5.6\% sur le benchmark multimodal complexe MM-Vet. Les visualisations montrent sa capacité améliorée à s'aligner avec les intentions des utilisateurs. Une série d'ablations est fermement réalisée pour révéler le mécanisme latent de l'approche, ce qui indique également son potentiel pour une mise à l'échelle future. Le code sera disponible.
Zhu et al. (Mardi,) ont étudié cette question.