March 18, 2024Open Access

Fspen: una Red Ultra-Ligera para la Mejora del Habla en Tiempo Real

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los métodos de mejora del habla basados en aprendizaje profundo han mostrado resultados prometedores en los últimos años. Sin embargo, en aplicaciones prácticas, el tamaño del modelo y la complejidad computacional son factores importantes que limitan su uso en productos finales. Por lo tanto, en productos que requieren mejora del habla en tiempo real con recursos limitados, como auriculares TWS, audífonos, dispositivos IoT, etc., son necesarios modelos ultra-ligeros. En este artículo, se propone una red ultra-ligera, FSPEN, para la tarea de mejora del habla en tiempo real. Proponemos una estructura de red de banda completa y sub-banda para extraer características globales y locales, y un método de extensión de camino inter-cuadro que puede mejorar la capacidad de modelado de la red mientras se preserva la complejidad. Los experimentos demuestran que la FSPEN propuesta logra un rendimiento de PESQ 2.97 en el conjunto de datos VoiceBank+Demand a 89M operaciones de multiplicar-acumular por segundo (MAC) y 79k parámetros.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo