November 17, 2015Open Access

Previsão de vídeo profunda em múltiplas escalas além do erro quadrático médio

Key Points

Key points are not available for this paper at this time.

Abstract

Aprender a prever imagens futuras a partir de uma sequência de vídeo envolve a construção de uma representação interna que modela a evolução da imagem com precisão e, portanto, em certa medida, seu conteúdo e dinâmica. É por isso que a previsão de vídeo no espaço de pixels pode ser vista como uma avenida promissora para aprendizado de recursos não supervisionado. Além disso, embora o fluxo óptico tenha sido um problema muito estudado em visão computacional por um longo tempo, a previsão de quadros futuros raramente é abordada. No entanto, muitas aplicações de visão poderiam se beneficiar do conhecimento dos próximos quadros dos vídeos, o que não requer a complexidade de rastrear as trajetórias de cada pixel. Neste trabalho, treinamos uma rede convolucional para gerar quadros futuros dado uma sequência de entrada. Para lidar com as previsões inerentemente borradas obtidas a partir da função de perda do erro quadrático médio padrão (MSE), propomos três estratégias diferentes e complementares de aprendizado de recursos: uma arquitetura em múltiplas escalas, um método de treinamento adversarial e uma função de perda de diferença de gradiente de imagem. Comparamos nossas previsões a diferentes resultados publicados com base em redes neurais recorrentes no conjunto de dados UCF101.

Perguntar à IA

Bookmark

View Full Paper