June 6, 2024Open Access

Mejora de Voz Multicanal Flexible para un Frontend Robusto contra Ruido

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Este artículo propone un sistema de mejora de voz multicanal flexible con el objetivo principal de mejorar la robustez del reconocimiento automático de voz (ASR) en condiciones ruidosas. El sistema propuesto combina un estimador de máscara neural flexible aplicable a diferentes conteos y configuraciones de canales, y un filtro multicanal con selección automática de referencia. Se propone una capa de transformar-asistir-concatenar para manejar la información entre canales en el estimador de máscara, que ha demostrado ser efectiva para configuraciones de micrófono arbitrarias. La evaluación presentada demuestra la efectividad del sistema flexible para varias geometrías de arreglos compactos vistas y no vistas, igualando el rendimiento de sistemas específicos de configuración fija. Además, se observa una mejora significativamente mayor en el rendimiento de ASR para configuraciones con micrófonos colocados al azar.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo