March 18, 2024Open Access

Recuperación de imagen con consulta compuesta mediante fusión multimodal multiescala

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La recuperación de imagen con consulta compuesta (IR-CQ) es una tarea desafiante ya que tiene como objetivo recuperar la imagen objetivo de acuerdo con una consulta de modalidad híbrida que consiste en una imagen de referencia y un modificador de texto. Los enfoques anteriores se centran principalmente en diseñar diversos módulos de fusión multimodal para fusionar la consulta de modalidad híbrida, pero estos módulos de fusión suelen ser subóptimos sin considerar una fusión suficiente entre las dos modalidades. En este documento, proponemos un bloque de fusión general tomando tres estrategias de fusión: suma ponderada, concatenación y agrupamiento bilineal. Es importante destacar que este bloque de fusión general puede ser implementado para fusionar no solo la consulta de modalidad híbrida sino también las características multiescala de la imagen de referencia. Específicamente, primero fusionamos las características multiescala de la imagen de referencia con el bloque de fusión multiescala (MSF) y luego fusionamos las características de la imagen de referencia y el modificador de texto con el bloque de fusión multimodal (MMF), donde tanto MSF como MMF son instanciaciones de nuestro bloque de fusión general. Experimentos extensivos en tres conjuntos de datos de referencia muestran que nuestro modelo propuesto supera significativamente los enfoques existentes.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo