Key points are not available for this paper at this time.
A detecção de ação temporal (TAD) tem como objetivo localizar as posições de ação e reconhecer as categorias de ação em vídeos longos e não editados. Embora muitos métodos tenham alcançado resultados promissores, sua robustez não foi estudada de forma aprofundada. Na prática, observamos que a informação temporal em vídeos pode ser ocasionalmente corrompida, como quadros ausentes ou desfocados. Curiosamente, métodos existentes costumam sofrer uma queda significativa de desempenho mesmo que apenas um quadro seja afetado. Para avaliar formalmente a robustez, estabelecemos dois benchmarks de robustez contra corrupção temporal, nomeadamente THUMOS14-C e ActivityNet-v1.3-C. Neste artigo, analisamos extensivamente a robustez de sete métodos líderes de TAD e obtemos algumas descobertas interessantes: 1) Métodos existentes são particularmente vulneráveis a corrupções temporais, e métodos end-to-end são frequentemente mais suscetíveis do que aqueles com um extrator de características pré-treinado; 2) A vulnerabilidade vem principalmente do erro de localização, e não do erro de classificação; 3) Quando as corrupções ocorrem no meio de uma instância de ação, os modelos TAD tendem a apresentar a maior queda de desempenho. Além de construir um benchmark, desenvolvemos ainda um método de treinamento robusto simples, mas eficaz, para defender contra corrupções temporais, através da augmentação FrameDrop e da perda de Consistência Temporal-Robusta. Notavelmente, nossa abordagem não só melhora a robustez, mas também gera melhorias promissoras em dados limpos. Acreditamos que este estudo servirá como um benchmark para pesquisas futuras em análise robusta de vídeo. O código-fonte e os modelos estão disponíveis em https://github.com/Alvin-Zeng/temporal-robustness-benchmark.
Zeng et al. (Sexta,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: