Los puntos clave no están disponibles para este artículo en este momento.
En los últimos años, la tarea de generar automáticamente descripciones de imágenes ha atraído mucha atención en el campo de la inteligencia artificial. Aprovechando el desarrollo de redes neuronales convolucionales (CNN) y redes neuronales recurrentes (RNN), se han propuesto muchos enfoques basados en el marco CNN-RNN para resolver esta tarea y han logrado un proceso notable. Sin embargo, quedan dos problemas por abordar en los que la mayoría de los métodos existentes utilizan solo la representación a nivel de imagen. Un problema es la falta de objetos, en la que algunos objetos importantes pueden faltar al generar la descripción de la imagen y el otro es la mala predicción, cuando un objeto puede ser reconocido en una categoría incorrecta. En este documento, para abordar estos dos problemas, proponemos un nuevo método llamado atención global-local (GLA) para generar descripciones de imágenes. El modelo GLA propuesto utiliza un mecanismo de atención para integrar características a nivel de objeto con características a nivel de imagen. De esta manera, nuestro modelo puede prestar atención selectiva a objetos e información de contexto simultáneamente. Por lo tanto, nuestro método GLA propuesto puede generar oraciones de descripción de imágenes más relevantes y lograr un rendimiento de vanguardia en el conocido conjunto de datos de subtítulos Microsoft COCO con varias métricas de evaluación populares: CIDEr, METEOR, ROUGE-L y BLEU-1, 2, 3, 4.
Li et al. (Mon,) estudiaron esta cuestión.