August 1, 2021Open Access

Red de alineación jerárquica paso a paso para la coincidencia imagen-texto

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La coincidencia imagen-texto juega un papel central en el cierre de la brecha semántica entre la visión y el lenguaje. El punto clave para lograr una alineación visual-semántica precisa radica en capturar la correspondencia cruzada modal de grano fino entre la imagen y el texto. La mayoría de los métodos anteriores dependen de un razonamiento de paso único para descubrir las interacciones visual-semánticas, lo que carece de la capacidad de aprovechar la información multinivel para localizar la relevancia jerárquica de grano fino. A diferencia de ellos, en este trabajo, proponemos una red de alineación jerárquica paso a paso (SHAN) que descompone la coincidencia imagen-texto en un proceso de razonamiento cruzado modal de múltiples pasos. Específicamente, primero logramos la alineación local a local a nivel de fragmento, seguida de realizar alineación global a local y de global a global a nivel de contexto de manera secuencial. Esta estrategia de alineación progresiva proporciona a nuestro modelo más pistas semánticas complementarias y suficientes para comprender las correlaciones jerárquicas entre la imagen y el texto. Los resultados experimentales en dos conjuntos de datos de referencia demuestran la superioridad de nuestro método propuesto.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhong Ji

Kexin Chen

Haoran Wang

Actions

Institutions

Tianjin University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Red de alineación jerárquica paso a paso para la coincidencia imagen-texto

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study