Key points are not available for this paper at this time.
Atividades humanas complexas que ocorrem em vídeos podem ser definidas em termos de configurações temporais de ações primitivas. Trabalhos anteriores geralmente escolhem manualmente os primitivos, seu número total e relações temporais (por exemplo, permitindo apenas seguido por), e então apenas estimam sua importância relativa para o reconhecimento de atividades. Nós avançamos trabalhos anteriores aprendendo quais partes da atividade e suas relações espaciotemporais devem ser capturadas para representar a atividade, e quão relevantes elas são para permitir uma inferência eficiente em vídeos realistas. Representamos vídeos por grafos espaciotemporais, onde os nós correspondem a segmentos de vídeo em multiescala, e as arestas capturam suas relações hierárquicas, temporais e espaciais. O acesso a segmentos de vídeo é fornecido pelo nosso novo segmentador em multiescala. Dado um conjunto de grafos espaciotemporais de treinamento, aprendemos seu grafo arquetípico e as pdfs associadas com nós e arestas do modelo. O modelo aprende de forma adaptativa a partir de segmentos de vídeo relevantes e suas relações, abordando o “o que” e “como”. A inferência e o aprendizado são formulados dentro do mesmo framework - o de uma otimização robusta de mínimos quadrados - que é invariante a permutações arbitrárias de nós em grafos espaciotemporais. O modelo é usado para analisar novos vídeos em termos de detectar e localizar partes relevantes da atividade. Nós superamos o estado da arte em conjuntos de dados de interação humana de referência, como os conjuntos Olímpico e UT, sob uma troca favorável de complexidade versus precisão.
Brendel et al. (Ter,) estudaram essa questão.