Key points are not available for this paper at this time.
Redes convolucionais de fluxo duplo mostraram desempenho forte em tarefas de reconhecimento de ações em vídeo. A ideia chave é aprender características espaciotemporais ao fundir redes convolucionais espacial e temporalmente. No entanto, ainda não está claro como modelar as correlações entre as estruturas espacial e temporal em múltiplos níveis de abstração. Primeiro, o fluxo espacial tende a falhar se dois vídeos compartilharem fundos semelhantes. Segundo, o fluxo temporal pode ser enganado se duas ações se assemelharem em pequenos fragmentos, embora pareçam distintas a longo prazo. Propomos uma nova rede piramidal espaciotemporal para fundir as características espaciais e temporais em uma estrutura piramidal de modo que possam se reforçar mutuamente. Do ponto de vista da arquitetura, nossa rede constitui estratégias de fusão hierárquica que podem ser treinadas como um todo usando uma perda espaciotemporal unificada. Uma série de experimentos de ablação apoia a importância de cada estratégia de fusão. Do ponto de vista técnico, introduzimos o operador bilinear compacto espaciotemporal em tarefas de análise de vídeo. Este operador permite o treinamento eficiente de operações de fusão bilinear que podem capturar interações completas entre as características espaciais e temporais. Nossa rede final alcança resultados de ponta em conjuntos de dados padrão de vídeo.
Wang et al. (Sat,) estudaram essa questão.