La localización temporal de acciones es una tarea fundamental en la comprensión de videos que se centra en clasificar y localizar temporalmente instancias de acción en videos sin recortar. En comparación con la localización temporal de acciones, la tarea de Localización Temporal de Acciones con Supervisión Débil (WTAL) presenta mayores desafíos, ya que sus datos de entrenamiento carecen de información detallada sobre los límites de acción. Los métodos WTAL existentes ignoran la relación complementaria entre modalidades y la dependencia entre fragmentos, lo que resulta en resultados de localización inexactos. Para resolver estos problemas, proponemos una Red de Agregación Jerárquica Colaborativa (CHA-Net). Específicamente, primero usamos un módulo de complementación de modalidades para aprender las sinergias entre modalidades. Luego, se propone un módulo de mejora colaborativa para eliminar la información irrelevante a las acciones en la modalidad RGB. Finalmente, se propone un módulo de agregación jerárquica para capturar la información temporal completa de las instancias de acción para extraer mejor las dependencias temporales entre fragmentos. Experimentos extensivos en los conjuntos de datos THUMOS14, ActivityNet1.2 y ActivityNet1.3 demuestran la efectividad de nuestro método. En comparación con F3-Net (TMM2024, Avg0.1: 0.5) y SPCC-Net (TMM2024, Avg0.1: 0.7) en el conjunto de datos THUMOS14, el método propuesto puede lograr mejoras de 3.2% y 2.4%, respectivamente.
Un estudio de Thu estudió esta pregunta.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: