Key points are not available for this paper at this time.
La génération de graphes de scènes (SGG) fournit une représentation linguistique de base des scènes visuelles, nécessitant des modèles pour comprendre des sémantiques complexes et diverses entre différents objets. Cependant, cette complexité et diversité dans la SGG conduit également à une sous-représentation, où une partie des triplets de test est rare ou même non vue pendant l'entraînement, entraînant des prédictions imprécises. Pour y remédier, nous proposons d'utiliser les modèles SGG avec des modèles de vision-langue préentraînés (VLM) pour améliorer la représentation. Cependant, en raison de l'écart entre le préentraînement et la SGG, l'assemblage direct des VLM préentraînés entraîne de graves biais dans les mots de relation. Ainsi, nous introduisons l'estimation LM pour approcher la distribution des mots sous-jacente dans les ensembles de langues de préentraînement, puis utilisons la distribution pour le dé-biaisage. Après cela, nous assemblons les VLM avec les modèles SGG pour améliorer la représentation. Étant donné que chaque modèle peut mieux représenter différents échantillons, nous utilisons un indicateur conscient de la certitude pour évaluer chaque échantillon et ajuster dynamiquement les poids de l'ensemble. Notre méthode aborde efficacement les biais des mots, améliore la représentation de SGG et réalise des améliorations de performance remarquables. Elle est sans entraînement et s'intègre bien avec les modèles SGG existants.
Wang et al. (Sun,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: