Key points are not available for this paper at this time.
Enquanto a maioria dos modelos FSL se concentra na classificação de imagens, a extensão para o reconhecimento de ações é bastante desafiadora devido à dimensão temporal adicional nos vídeos. Para abordar essa questão, propomos uma Rede de Alinhamento de Fragmentos Temporais Modulada por Movimento (MT-FAN) de ponta a ponta, explorando conjuntamente a modulação de movimento específica da tarefa e o alinhamento de fragmentos temporais em múltiplos níveis para Reconhecimento de Ação com Poucos Exemplares (FSAR). O modelo MT-FAN proposto apresenta várias vantagens. Primeiro, projetamos um modulador de movimento condicionado nas incorporações de movimento específicas da tarefa aprendidas, que podem ativar os canais relacionados aos padrões de movimento compartilhados pela tarefa para cada quadro. Em segundo lugar, um mecanismo de atenção de segmentos é proposto para descobrir automaticamente os segmentos de nível superior para o alinhamento de fragmentos temporais em múltiplos níveis, que abrange os alinhamentos quadro a quadro, segmento a segmento e segmento a quadro. Até onde sabemos, este é o primeiro trabalho a explorar a modulação de movimento específica da tarefa para FSAR. Resultados experimentais extensivos em quatro benchmarks padrão demonstram que o modelo proposto se desempenha favoravelmente em comparação com os métodos FSAR de estado da arte.
Wu et al. (Quarta-feira,) estudaram esta questão.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: