June 1, 2015

Correlación profunda para emparejar imágenes y texto

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Este artículo aborda el problema de emparejar imágenes y subtítulos en un espacio latente conjunto aprendido mediante análisis de correlación canónica profunda (DCCA). Los datos de imagen y subtítulo se representan mediante las salidas de las redes neuronales profundas basadas en visión y texto. La alta dimensionalidad de las características presenta un gran desafío en términos de memoria y complejidad de velocidad cuando se utilizan en el marco de DCCA. Abordamos estos problemas mediante una implementación en GPU y proponemos métodos para lidiar con el sobreajuste. Esto hace posible evaluar el enfoque DCCA en los populares benchmarks de emparejamiento de subtítulos e imágenes. Comparamos nuestro enfoque con otras técnicas propuestas recientemente y presentamos resultados de vanguardia en tres conjuntos de datos.

Me gusta

Guardar

Me gusta

Guardar

Correlación profunda para emparejar imágenes y texto

Puntos clave

Resumen

Cite This Study