Key points are not available for this paper at this time.
Na resposta a perguntas visuais (VQA), um algoritmo deve responder a perguntas baseadas em texto sobre imagens. Embora múltiplos conjuntos de dados para VQA tenham sido criados desde o final de 2014, todos eles apresentam falhas tanto em seu conteúdo quanto na forma como os algoritmos são avaliados. Como resultado, as pontuações de avaliação são inflacionadas e predominantemente determinadas por respostas a perguntas mais fáceis, tornando difícil comparar diferentes métodos. Neste artigo, analisamos os algoritmos VQA existentes usando um novo conjunto de dados chamado Task Driven Image Understanding Challenge (TDIUC), que tem mais de 1,6 milhões de perguntas organizadas em 12 categorias diferentes. Também introduzimos perguntas que são sem significado para uma determinada imagem para forçar um sistema VQA a raciocinar sobre o conteúdo da imagem. Propomos novos esquemas de avaliação que compensam tipos de perguntas super-representados e facilitam o estudo das forças e fraquezas dos algoritmos. Analisamos o desempenho de modelos VQA tanto de base quanto de última geração, incluindo pooling bilinear compacto multi-modal (MCB), redes de módulos neurais e unidades de resposta recorrentes. Nossos experimentos estabelecem como a atenção ajuda certas categorias mais do que outras, determinam quais modelos funcionam melhor que outros e explicam como modelos simples (por exemplo, MLP) podem superar modelos mais complexos (MCB) simplesmente aprendendo a responder categorias de perguntas grandes e fáceis.
Kafle et al. (Sun,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: