Los puntos clave no están disponibles para este artículo en este momento.
La comprensión de expresiones referenciales tiene como objetivo localizar la instancia del objeto descrito por una expresión en lenguaje natural. Los métodos actuales de expresión referencial han logrado un buen rendimiento. Sin embargo, ninguno de ellos es capaz de lograr una inferencia en tiempo real sin pérdida de precisión. La razón de la velocidad de inferencia relativamente lenta es que estos métodos artificialmente dividen la comprensión de expresiones referenciales en dos etapas secuenciales que incluyen la generación de propuestas y la clasificación de propuestas. Esto no se ajusta exactamente al hábito de la cognición humana. Con este fin, proponemos un nuevo método de Filtrado de Correlación Cruzada en Tiempo Real (RCCF). RCCF reformula la comprensión de expresiones referenciales como un proceso de filtrado de correlación. La expresión se mapea primero desde el dominio del lenguaje al dominio visual y luego se trata como una plantilla (núcleo) para realizar el filtrado de correlación en el mapa de características de la imagen. El valor máximo en el mapa de calor de correlación indica los puntos centrales del cuadro objetivo. Además, RCCF también regresa un tamaño de objeto 2-D y un desfase 2-D. Las coordenadas del punto central, el tamaño del objeto y el desfase del punto central se combinan para formar el cuadro delimitador objetivo. Nuestro método opera a 40 FPS mientras logra un rendimiento líder en los benchmarks RefClef, RefCOCO, RefCOCO+ y RefCOCOg. En el desafiante conjunto de datos RefClef, nuestro método casi duplica el rendimiento de vanguardia (34.70% aumentado a 63.79%). Esperamos que este trabajo despierte más atención y estudios hacia el nuevo marco de filtrado de correlación cruzada, así como hacia el marco de una sola etapa para la comprensión de expresiones referenciales.
Liao et al. (Mon,) estudiaron esta cuestión.