May 24, 2019Open Access

Raciocínio Autocrítico para Respostas a Perguntas Visuais Robusta

Key Points

Key points are not available for this paper at this time.

Abstract

Os sistemas de aprendizado profundo para Respostas a Perguntas Visuais (VQA) tendem a capturar correlações estatísticas superficiais nos dados de treinamento devido a fortes priors linguísticos e falham em generalizar para dados de teste com uma distribuição de perguntas-respostas (QA) significativamente diferente. Para abordar essa questão, introduzimos um objetivo de treinamento autocrítico que garante que as explicações visuais de respostas corretas correspondam mais às regiões de imagem mais influentes do que a outros candidatos a resposta competitivos. As regiões influentes são determinadas a partir de explicações visuais/textuais humanas ou automaticamente, com base apenas em palavras significativas na pergunta e na resposta. Avaliamos nossa abordagem na tarefa de generalização de VQA usando o conjunto de dados VQA-CP, alcançando um novo estado da arte, ou seja, 49,5% usando explicações textuais e 48,5% usando regiões anotadas automaticamente.

Bookmark

View Full Paper

Bookmark

View Full Paper

Raciocínio Autocrítico para Respostas a Perguntas Visuais Robusta

Key Points

Abstract

Cite This Study