May 1, 2013

Una red neuronal convolucional profunda que utiliza agrupamiento heterogéneo para intercambiar invariancia acústica con confusión fonética

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Desarrollamos y presentamos una nueva arquitectura de red neuronal convolucional profunda, donde se utiliza el agrupamiento heterogéneo para proporcionar invariancia en el desplazamiento de frecuencia de manera restringida en el espectrograma del habla, al tiempo que se minimiza la confusión entre clases de habla inducida por dicha invariancia. El diseño de la capa de agrupamiento está guiado por el conocimiento del dominio sobre cómo cambiarían las clases de habla cuando se modifican las frecuencias de formantes. Las capas de convolución y agrupamiento heterogéneo son seguidas por una red neuronal completamente conectada de múltiples capas para formar una arquitectura profunda interconectada a un HMM para el reconocimiento continuo del habla. Durante el entrenamiento, todas las capas de esta red profunda son regularizadas utilizando una variante de la técnica de "dropout". La evaluación experimental demuestra la eficacia tanto del agrupamiento heterogéneo como de la regularización por dropout. En la tarea de reconocimiento fonético TIMIT, hemos alcanzado una tasa de error de fonemas del 18.7%, la más baja informada en la literatura para esta tarea estándar con un único sistema y sin el uso de información sobre la identidad del hablante. Experimentos preliminares sobre el reconocimiento de voz de vocabulario grande en una tarea de búsqueda por voz también muestran una reducción de la tasa de error utilizando agrupamiento heterogéneo en la red neuronal convolucional profunda.

Preguntar a la IA

Me gusta

Guardar