Los puntos clave no están disponibles para este artículo en este momento.
La coincidencia imagen-texto juega un papel central en el cierre de la brecha semántica entre la visión y el lenguaje. El punto clave para lograr una alineación visual-semántica precisa radica en capturar la correspondencia cruzada modal de grano fino entre la imagen y el texto. La mayoría de los métodos anteriores dependen de un razonamiento de paso único para descubrir las interacciones visual-semánticas, lo que carece de la capacidad de aprovechar la información multinivel para localizar la relevancia jerárquica de grano fino. A diferencia de ellos, en este trabajo, proponemos una red de alineación jerárquica paso a paso (SHAN) que descompone la coincidencia imagen-texto en un proceso de razonamiento cruzado modal de múltiples pasos. Específicamente, primero logramos la alineación local a local a nivel de fragmento, seguida de realizar alineación global a local y de global a global a nivel de contexto de manera secuencial. Esta estrategia de alineación progresiva proporciona a nuestro modelo más pistas semánticas complementarias y suficientes para comprender las correlaciones jerárquicas entre la imagen y el texto. Los resultados experimentales en dos conjuntos de datos de referencia demuestran la superioridad de nuestro método propuesto.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhong Ji
Kexin Chen
Haoran Wang
Tianjin University
Building similarity graph...
Analyzing shared references across papers
Loading...
Ji et al. (Sun,) estudiaron esta cuestión.
synapsesocial.com/papers/6a122537ea48cb855a3449f0 — DOI: https://doi.org/10.24963/ijcai.2021/106