Key points are not available for this paper at this time.
Le biais de dataset dans les tâches vision-langage devient l'un des principaux problèmes qui entrave le progrès de notre communauté. Les solutions existantes manquent d'une analyse rigoureuse sur la raison pour laquelle les légendeurs d'images modernes s'effondrent facilement dans le biais de dataset. Dans cet article, nous présentons une nouvelle perspective : la Légende d'image déconfondu (DIC), pour trouver la réponse à cette question, puis retourner sur les légendeurs d'images neuronaux modernes, et enfin proposer un cadre DIC : DICv1.0 pour atténuer les effets négatifs causés par le biais de dataset. DIC est basé sur l'inférence causale, dont les deux principes : les ajustements backdoor et front-door, nous aident à revoir les études précédentes et à concevoir de nouveaux modèles efficaces. En particulier, nous montrons que DICv1.0 peut renforcer deux modèles de légende prédominants et peut atteindre un score de 131,1 CIDEr-D en modèle unique et de 128,4 c40 CIDEr-D sur le découpage Karpathy et le découpage en ligne du challenging MS COCO dataset, respectivement. Il est intéressant de noter que DICv1.0 est une dérivation naturelle de notre retour causal, ce qui ouvre des directions prometteuses pour la légende d'image.
Yang et al. (Mar,) ont étudié cette question.