Key points are not available for this paper at this time.
Consideramos o reconhecimento automatizado de ações humanas em vídeos de vigilância. A maioria dos métodos atuais constrói classificadores com base em características complexas feitas à mão, computadas a partir das entradas brutas. Redes neurais convolucionais (CNNs) são um tipo de modelo profundo que pode atuar diretamente sobre as entradas brutas. No entanto, tais modelos atualmente estão limitados ao tratamento de entradas 2D. Neste artigo, desenvolvemos um novo modelo de CNN 3D para reconhecimento de ações. Este modelo extrai características tanto das dimensões espaciais quanto temporais, realizando convoluções 3D, capturando assim as informações de movimento codificadas em múltiplos quadros adjacentes. O modelo desenvolvido gera múltiplos canais de informações a partir dos quadros de entrada, e a representação final das características combina informações de todos os canais. Para aumentar ainda mais o desempenho, propomos regularizar as saídas com características de alto nível e combinar as previsões de uma variedade de modelos diferentes. Aplicamos os modelos desenvolvidos para reconhecer ações humanas no ambiente do mundo real de vídeos de vigilância em aeroportos, e eles atingem um desempenho superior em comparação com métodos de base.
Ji et al. (Terça,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: