Key points are not available for this paper at this time.
Redes neurais convolucionais (CNNs) foram amplamente aplicadas para problemas de reconhecimento de imagem, oferecendo resultados de ponta em reconhecimento, detecção, segmentação e recuperação. Neste trabalho, propomos e avaliamos várias arquiteturas de redes neurais profundas para combinar informações de imagem ao longo de um vídeo por períodos de tempo mais longos do que os tentados anteriormente. Propomos dois métodos capazes de lidar com vídeos de longa duração. O primeiro método explora várias arquiteturas de agrupamento de características temporais convolucionais, examinando as diversas escolhas de design que precisam ser feitas ao adaptar uma CNN para esta tarefa. O segundo método proposto modela explicitamente o vídeo como uma sequência ordenada de quadros. Para esse propósito, empregamos uma rede neural recorrente que utiliza células de Memória de Longo e Curto Prazo (LSTM) conectadas à saída da CNN subjacente. Nossas melhores redes exibem melhorias significativas de desempenho em relação aos resultados publicados anteriormente no conjunto de dados Sports 1 million (73,1% vs. 60,9%) e nos conjuntos de dados UCF-101 com (88,6% vs. 88,0%) e sem informações adicionais de fluxo óptico (82,6% vs. 73,0%).
Ng et al. (Mon,) estudaram esta questão.