December 2, 2019Open Access

Más es menos: Aprendiendo representaciones de video eficientes mediante una red grande-pequeña y agregación temporal profundizada

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los modelos actuales de vanguardia para el reconocimiento de acciones en video se basan principalmente en costosos ConvNets 3D. Esto resulta en la necesidad de grandes clústeres de GPU para entrenar y evaluar tales arquitecturas. Para abordar este problema, presentamos una arquitectura ligera y amigable con la memoria para el reconocimiento de acciones que rinde al mismo nivel o mejor que las arquitecturas actuales utilizando solo una fracción de los recursos. La arquitectura propuesta se basa en una combinación de una subred profunda que opera en cuadros de baja resolución con una subred compacta que opera en cuadros de alta resolución, lo que permite alta eficiencia y precisión al mismo tiempo. Demostramos que nuestro enfoque logra una reducción de 34 veces en FLOPs y 2 veces en el uso de memoria en comparación con la línea base. Esto permite entrenar modelos más profundos con más cuadros de entrada bajo el mismo presupuesto computacional. Para eludir aún más la necesidad de convoluciones 3D a gran escala, se propone un módulo de agregación temporal para modelar dependencias temporales en un video a costos computacionales muy bajos adicionales. Nuestros modelos logran un rendimiento sólido en varios puntos de referencia de reconocimiento de acciones, incluyendo Kinetics, Something-Something y Moments-in-time. El código y los modelos están disponibles en https://github.com/IBM/bLVNet-TAM.

Me gusta

Guardar

Ver artículo completo