Los puntos clave no están disponibles para este artículo en este momento.
En este artículo, presentamos un sistema de reconocimiento de emociones basado en video presentado al EmotiW 2016 Challenge. El módulo central de este sistema es una red híbrida que combina redes neuronales recurrentes (RNN) y redes convolucionales 3D (C3D) de manera de fusión tardía. Las RNN y C3D codifican la información de apariencia y movimiento de diferentes maneras. Específicamente, las RNN toman características de apariencia extraídas por una red neuronal convolucional (CNN) a través de fotogramas de video individuales como entrada y codifican el movimiento más tarde, mientras que C3D modela la apariencia y el movimiento del video simultáneamente. Combinado con un módulo de audio, nuestro sistema logró una precisión de reconocimiento del 59.02% sin usar clips de video adicionales etiquetados con emociones en el conjunto de entrenamiento, en comparación con el 53.8% del ganador de EmotiW 2015. Experimentos extensivos muestran que combinar RNN y C3D puede mejorar notablemente el reconocimiento de emociones basado en video.
Yin et al. (Mon,) estudiaron esta pregunta.