Los puntos clave no están disponibles para este artículo en este momento.
En este documento presentamos nuestro trabajo sobre la mejora de la eficiencia del entrenamiento adversarial para resúmenes de video no supervisados. Nuestro punto de partida es el modelo SUM-GAN, que crea un resumen representativo basado en la intuición de que dicho resumen debería permitir la reconstrucción de un video que sea indistinguible del original. Nos basamos en una implementación de acceso público de una variación de este modelo, que incluye una capa de compresión lineal para reducir el número de parámetros aprendidos y aplica un enfoque incremental para entrenar los diferentes componentes de la arquitectura. Después de evaluar el impacto de estos cambios en el rendimiento del modelo, proponemos un proceso de aprendizaje gradual basado en etiquetas para mejorar la eficiencia del entrenamiento de la parte adversarial del modelo. Antes de evaluar la eficiencia de nuestro modelo, realizamos un estudio exhaustivo con respecto a los protocolos de evaluación utilizados y examinamos el rendimiento posible en dos conjuntos de datos de referencia, a saber, SumMe y TVSum. Las evaluaciones experimentales y las comparaciones con el estado del arte destacan la competitividad del método propuesto. Un estudio de ablación indica el beneficio de cada cambio aplicado en el rendimiento del modelo y señala el papel ventajoso de la estrategia de entrenamiento gradual y basada en etiquetas introducida en la eficiencia de aprendizaje de la parte adversarial de la arquitectura.
Apostolidis et al. (Mon,) estudiaron esta cuestión.