August 27, 2024Open Access

HPT++ : Modélisation hiérarchique des modèles de vision-langage avec génération de connaissances multi-granularité et amélioration de la modélisation de structure

Key Points

Key points are not available for this paper at this time.

Abstract

L'apprentissage par prompts est devenu une stratégie répandue pour adapter les modèles fondamentaux de vision-langage (VLMs) tels que CLIP aux tâches en aval. Avec l'émergence des grands modèles de langage (LLMs), des études récentes ont exploré le potentiel d'utiliser des descriptions liées aux catégories pour améliorer l'efficacité des prompts. Cependant, les descriptions conventionnelles manquent d'informations structurées explicites nécessaires pour représenter les interconnexions entre des éléments clés comme les entités ou les attributs en relation avec une catégorie particulière. Étant donné que les méthodes existantes de réglage des prompts accordent peu de considération à la gestion des connaissances structurées, cet article préconise d'exploiter les LLMs pour construire un graphique pour chaque description afin de hiérarchiser ces connaissances structurées. Par conséquent, nous proposons une nouvelle approche appelée Réglage Hiérarchique des Prompts (HPT), permettant la modélisation simultanée des connaissances linguistiques structurées et conventionnelles. Spécifiquement, nous introduisons un module d'attention guidée par les relations pour capturer les associations paire à paire entre les entités et les attributs pour un apprentissage de prompts de bas niveau. De plus, en intégrant des prompts de haut niveau et de niveau global modélisant la sémantique globale, la structure hiérarchique proposée forge des interconnexions entre niveaux et permet au modèle de gérer des relations plus complexes et à long terme. Enfin, en améliorant la génération de connaissances multi-granularité, en redessinant le module de réajustement de l'attention axée sur les relations et en intégrant des contraintes constantes sur l'encodeur de texte hiérarchique, nous proposons HPT++, qui améliore encore la performance de HPT. Nos expériences sont menées à travers un large éventail de paramètres d'évaluation, y compris la généralisation de base à nouveau, l'évaluation croisée des ensembles de données et la généralisation de domaine. Des résultats exhaustifs et des études d'ablation démontrent l'efficacité de nos méthodes, qui surpassent systématiquement les méthodes SOTA existantes.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper