Separar el habla objetivo de señales mixtas que contienen cantidades flexibles de hablantes presenta una tarea desafiante. Si bien los métodos existentes demuestran un fuerte rendimiento de separación y robustez al ruido, predominantemente asumen conocimiento previo de las cantidades de hablantes en las mezclas. La investigación limitada que aborda escenarios de cantidades de hablantes desconocidas exhibe capacidades de generalización significativamente restringidas en entornos acústicos reales. Para superar estos desafíos, este documento propone AVFSNet, un modelo de separación de habla audio-visual que integra codificación multi-escala y una arquitectura paralela, optimizado conjuntamente para las tareas de conteo de hablantes y separación de múltiples hablantes. El modelo separa independientemente cada hablante en paralelo mientras mejora la adaptabilidad al ruido ambiental a través de la integración de información visual. Evaluaciones experimentales exhaustivas demuestran que AVFSNet logra resultados de última generación en múltiples métricas de evaluación y ofrece un rendimiento excepcional en conjuntos de datos diversos.
Zhang et al. (Jue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: