Los puntos clave no están disponibles para este artículo en este momento.
Proponemos realizar respuestas a preguntas sobre videos (VideoQA) de manera contrastiva a través de un modelo de Transformador de Gráfico de Video (CoVGT). La singularidad y superioridad de CoVGT son triples: 1) Propone un módulo de transformador de gráfico dinámico que codifica el video capturando explícitamente los objetos visuales, sus relaciones y dinámicas, para un razonamiento espaciotemporal complejo. 2) Diseña transformadores separados para video y texto para el aprendizaje contrastivo entre el video y el texto para realizar QA, en lugar de un transformador multimodal para la clasificación de respuestas. La comunicación detallada entre video y texto se realiza a través de módulos adicionales de interacción cruzada. 3) Se optimiza mediante objetivos contrastivos completamente supervisados y auto-supervisados entre las respuestas correctas e incorrectas, así como entre las preguntas relevantes e irrelevantes, respectivamente. Con una codificación de video superior y una solución de QA, mostramos que CoVGT puede lograr un rendimiento mucho mejor que los trabajos anteriores en tareas de razonamiento de video. Su rendimiento incluso supera a aquellos modelos que están preentrenados con millones de datos externos. Además, mostramos que CoVGT también puede beneficiarse del preentrenamiento cruzado, aunque con datos de órdenes de magnitud más pequeños. Los resultados demuestran la efectividad y superioridad de CoVGT, y además revelan su potencial para un preentrenamiento más eficiente en términos de datos.
Xiao et al. (Tue,) estudiaron esta cuestión.