January 1, 2022Open Access

RNN Autoatendida para Mejora del Habla para Mejorar la Generalización entre Corpos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Las redes neuronales profundas (DNNs) representan la metodología principal para la mejora del habla supervisada, principalmente debido a su capacidad para modelar funciones complejas utilizando representaciones jerárquicas. Sin embargo, un estudio reciente reveló que las DNNs entrenadas en un solo corpus no logran generalizar a corpora no entrenados, especialmente en condiciones de baja relación señal-ruido (SNR). Desarrollar un algoritmo de mejora del habla independiente de ruido, hablante y corpus es esencial para aplicaciones del mundo real. En este estudio, proponemos una red neuronal recurrente autoatendida (SARNN) para la mejora del habla en el dominio del tiempo con el fin de mejorar la generalización entre corpora. SARNN se compone de redes neuronales recurrentes (RNNs) aumentadas con bloques de autoatención y bloques totalmente conectados. Evaluamos SARNN en diferentes corpora con ruidos no estacionarios en condiciones de baja SNR. Los resultados experimentales demuestran que SARNN supera sustancialmente a enfoques competitivos para la mejora del habla en el dominio del tiempo, como RNNs y SARNNs de doble ruta. Además, informamos un hallazgo importante de que los dos enfoques populares para la mejora del habla: mapeo espectral complejo y mejora en el dominio del tiempo, obtienen resultados similares para RNN y SARNN con entrenamiento a gran escala. También proporcionamos un subconjunto desafiante del conjunto de pruebas utilizado en este estudio para evaluar futuros algoritmos y facilitar comparaciones directas.

Me gusta

Guardar

Ver artículo completo