Los puntos clave no están disponibles para este artículo en este momento.
La segmentación audio-visual (AVS) tiene como objetivo localizar y segmentar los objetos sonoros en un video determinado, lo que exige una comprensión de escena a nivel de píxel impulsada por audio. Los métodos existentes no pueden procesar completamente las correlaciones finas entre las señales de audio y visuales en diversas situaciones de manera dinámica. También enfrentan desafíos para adaptarse a escenarios complejos, como el audio en evolución, la coexistencia de múltiples objetos, y más. En este documento, proponemos AVSegFormer, un marco novedoso para AVS que aprovecha la arquitectura del transformador. Específicamente, incluye un mezclador audio-visual denso, que puede ajustar dinámicamente las características visuales de interés, y un decodificador audio-visual escaso, que separa implícitamente las fuentes de audio y empareja automáticamente las características visuales óptimas. La combinación de ambos componentes proporciona una representación multimodal condicional bidireccional más robusta, mejorando el rendimiento de la segmentación en diferentes escenarios. Experimentos extensivos demuestran que AVSegFormer logra resultados de vanguardia en el banco de pruebas de AVS. El código está disponible en https://github.com/vvvb-github/AVSegFormer.
Gao et al. (Sun,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: