What type of study is this?

This is a Experimental Study study.

October 19, 2025Open Access

AVFSNet: Separación de Habla Audio-Visual para un Número Flexible de Hablantes con Aprendizaje Multi-escala y Multi-tarea

Puntos clave

AVFSNet proporciona una solución de última generación para la separación de habla audio-visual, especialmente en escenarios con cantidades desconocidas de hablantes.
El modelo integra codificación multi-escala y una arquitectura paralela, mejorando su adaptabilidad al ruido ambiental.
Evaluaciones exhaustivas en múltiples conjuntos de datos revelan que AVFSNet sobresale tanto en tareas de separación como en capacidades de conteo de hablantes.
Los métodos existentes enfrentan dificultades con el conteo de hablantes desconocidos, pero AVFSNet mejora significativamente la generalización en entornos acústicos del mundo real.

Resumen

Separar el habla objetivo de señales mixtas que contienen cantidades flexibles de hablantes presenta una tarea desafiante. Si bien los métodos existentes demuestran un fuerte rendimiento de separación y robustez al ruido, predominantemente asumen conocimiento previo de las cantidades de hablantes en las mezclas. La investigación limitada que aborda escenarios de cantidades de hablantes desconocidas exhibe capacidades de generalización significativamente restringidas en entornos acústicos reales. Para superar estos desafíos, este documento propone AVFSNet, un modelo de separación de habla audio-visual que integra codificación multi-escala y una arquitectura paralela, optimizado conjuntamente para las tareas de conteo de hablantes y separación de múltiples hablantes. El modelo separa independientemente cada hablante en paralelo mientras mejora la adaptabilidad al ruido ambiental a través de la integración de información visual. Evaluaciones experimentales exhaustivas demuestran que AVFSNet logra resultados de última generación en múltiples métricas de evaluación y ofrece un rendimiento excepcional en conjuntos de datos diversos.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo