Key points are not available for this paper at this time.
Os sistemas de aprendizado profundo para Respostas a Perguntas Visuais (VQA) tendem a capturar correlações estatísticas superficiais nos dados de treinamento devido a fortes priors linguísticos e falham em generalizar para dados de teste com uma distribuição de perguntas-respostas (QA) significativamente diferente. Para abordar essa questão, introduzimos um objetivo de treinamento autocrítico que garante que as explicações visuais de respostas corretas correspondam mais às regiões de imagem mais influentes do que a outros candidatos a resposta competitivos. As regiões influentes são determinadas a partir de explicações visuais/textuais humanas ou automaticamente, com base apenas em palavras significativas na pergunta e na resposta. Avaliamos nossa abordagem na tarefa de generalização de VQA usando o conjunto de dados VQA-CP, alcançando um novo estado da arte, ou seja, 49,5% usando explicações textuais e 48,5% usando regiões anotadas automaticamente.
Wu et al. (Sex,) estudaram essa questão.