Key points are not available for this paper at this time.
Estudos recentes sobre detecção de objetos têm se concentrado em sequências de vídeo, principalmente devido à crescente demanda por aplicações industriais. Embora arquiteturas de imagem única obtenham resultados notáveis em termos de precisão, elas não aproveitam propriedades particulares das sequências de vídeo e geralmente requerem altos recursos computacionais paralelos, como GPUs de desktop. Neste trabalho, uma estrutura inatencional é proposta, onde o contexto do objeto em quadros de vídeo é reutilizado dinamicamente para reduzir o sobrecusto computacional. As características de contexto correspondentes aos quadros-chave são fundidas em um mapa de características sintético, que é posteriormente refinado usando agregação temporal com ConvLSTMs. Além disso, uma política inatencional foi aprendida para balancear adaptativamente a precisão e a quantidade de contexto reutilizado. A política inatencional foi aprendida sob o paradigma de aprendizado por reforço e usando nosso novo esquema de treinamento condicional de recompensa, que permite o treinamento da política sobre uma distribuição inteira de funções de recompensa e possibilita a seleção de uma única função de recompensa no momento da inferência. Nossa estrutura mostra resultados excepcionais em plataformas com capacidades de paralelização reduzidas, como CPUs, alcançando uma redução de latência média de até 2,09× e obtendo taxas de FPS semelhantes à sua plataforma equivalente de GPU, ao custo de uma redução de 1,11× no mAP.
Rodríguez-Ramos et al. (Qua,) estudaram essa questão.