Los puntos clave no están disponibles para este artículo en este momento.
Abordamos el problema de la Respuesta a Preguntas Visuales (VQA), que requiere una comprensión conjunta de la imagen y el lenguaje para responder a una pregunta sobre una fotografía dada. Enfoques recientes han aplicado métodos de subtitulación de imágenes profundas basados en redes convolucionales-recurrentes a este problema, pero no han logrado modelar la inferencia espacial. Para remediar esto, proponemos un modelo que llamamos la Red de Memoria Espacial y lo aplicamos a la tarea de VQA. Las redes de memoria son redes neuronales recurrentes con un mecanismo de atención explícito que selecciona ciertas partes de la información almacenada en memoria. Nuestra Red de Memoria Espacial almacena activaciones neuronales de diferentes regiones espaciales de la imagen en su memoria, y utiliza la pregunta para elegir regiones relevantes para calcular la respuesta, un proceso que constituye un único "salto" en la red. Proponemos una nueva arquitectura de atención espacial que alinea palabras con parches de imagen en el primer salto, y obtenemos resultados mejorados al agregar un segundo salto de atención que considera toda la pregunta para elegir evidencia visual basada en los resultados del primer salto. Para comprender mejor el proceso de inferencia aprendido por la red, diseñamos preguntas sintéticas que requieren específicamente inferencia espacial y visualizamos los pesos de atención. Evaluamos nuestro modelo en dos conjuntos de datos publicados de respuesta a preguntas visuales, DAQUAR 1 y VQA 2, y obtenemos resultados mejorados en comparación con un fuerte modelo base profundo (iBOWIMG) que concatena características de imagen y pregunta para predecir la respuesta.
Xu et al. (Tue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: