October 1, 2017

Aprendendo Recursos Espaciotemporais Usando 3DCNN e LSTM Convolucional para Reconhecimento de Gestos

Key Points

Key points are not available for this paper at this time.

Abstract

O reconhecimento de gestos tem como objetivo entender os gestos humanos em andamento. Neste artigo, apresentamos uma arquitetura profunda para aprender recursos espaciotemporais para reconhecimento de gestos. A arquitetura profunda primeiro aprende mapas de características espaciotemporais 2D usando redes neurais convolucionais 3D (3DCNN) e redes de memória de longo e curto prazo convolucionais bidirecionais (ConvLSTM). Os mapas de características 2D aprendidos podem codificar simultaneamente as informações temporais globais e as informações espaciais locais. Em seguida, utiliza-se 2DCNN para aprender recursos espaciotemporais de nível superior a partir dos mapas de características 2D para o reconhecimento final de gestos. As informações de correlação espaciotemporal são mantidas durante todo o processo de aprendizado de características. Isso torna a arquitetura profunda um aprendizador eficaz de recursos espaciotemporais. Experimentos no conjunto de dados de gestos isolados em larga escala ChaLearn LAP (IsoGD) e no conjunto de dados Sheffield Kinect Gesture (SKIG) demonstram a superioridade da arquitetura profunda proposta.

Bookmark

Aprendendo Recursos Espaciotemporais Usando 3DCNN e LSTM Convolucional para Reconhecimento de Gestos

Key Points

Abstract

Cite This Study

Also Consider

Also Consider