Los puntos clave no están disponibles para este artículo en este momento.
Dado un video y una consulta lingüística, la recuperación de momentos de video y la detección de momentos destacados (MR&HD) tienen como objetivo localizar todos los tramos relevantes mientras predicen simultáneamente puntuaciones de saliencia. La mayoría de los métodos existentes utilizan imágenes RGB como entrada, pasando por alto las señales visuales multi-modales inherentes como el flujo óptico y la profundidad. En este documento, proponemos una Red de Fusión Multi-Modal y Refinamiento de Consulta (MRNet) para aprender información complementaria de las pistas multi-modales. Específicamente, diseñamos un módulo de fusión multi-modal para combinar dinámicamente RGB, flujo óptico y mapa de profundidad. Además, para simular la comprensión humana de las frases, introducimos un módulo de refinamiento de consulta que fusiona texto en diferentes granularidades, que contiene niveles de palabra, frase y oración. Experimentos exhaustivos en los conjuntos de datos QVHighlights y Charades indican que MRNet supera a los métodos actuales de vanguardia, logrando mejoras notables en MR-mAP@Avg (+3.41) y HD-HIT@1 (+3.46) en QVHighlights.
Xu et al. (Mon,) estudiaron esta cuestión.