Los puntos clave no están disponibles para este artículo en este momento.
Este artículo aborda el problema de emparejar imágenes y subtítulos en un espacio latente conjunto aprendido mediante análisis de correlación canónica profunda (DCCA). Los datos de imagen y subtítulo se representan mediante las salidas de las redes neuronales profundas basadas en visión y texto. La alta dimensionalidad de las características presenta un gran desafío en términos de memoria y complejidad de velocidad cuando se utilizan en el marco de DCCA. Abordamos estos problemas mediante una implementación en GPU y proponemos métodos para lidiar con el sobreajuste. Esto hace posible evaluar el enfoque DCCA en los populares benchmarks de emparejamiento de subtítulos e imágenes. Comparamos nuestro enfoque con otras técnicas propuestas recientemente y presentamos resultados de vanguardia en tres conjuntos de datos.
Yan et al. (Mon,) estudiaron esta cuestión.