Key points are not available for this paper at this time.
Investigamos o design de recursos e arquiteturas de classificação na localização temporal de ações. Esta aplicação foca na detecção e rotulação de ações em vídeos não editados, o que apresenta mais desafios do que classificar vídeos pré-segmentados. A maior dificuldade na localização de ações é a incerteza da ocorrência de ações e a utilização de informações de diferentes escalas. Duas inovações são propostas para abordar essa questão. Primeiro, propomos uma Pirâmide de Recursos de Distribuição de Pontuações (PSDF) para capturar as informações de movimento em múltiplas resoluções centradas em cada janela de detecção. Este novo recurso mitiga a influência da posição e duração da ação desconhecidas, e mostra um ganho de desempenho significativo em relação às abordagens de detecção anteriores. Em segundo lugar, a consistência entre quadros é ainda mais explorada ao incorporar a PSDF nas Redes Neurais Recorrentes de última geração, o que proporciona um ganho adicional de desempenho na detecção de ações em vídeos temporais não editados. Testamos nossa estrutura de localização de ações nos conjuntos de dados THUMOS'15 e MPII Cooking Activities, ambos mostrando uma grande melhoria de desempenho em relação a tentativas anteriores.
Yuan et al. (Wed,) estudaram esta questão.