September 13, 2019

Traducción Directa de Voz a Voz con un Modelo de Secuencia a Secuencia

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Presentamos una red neuronal de secuencia a secuencia basada en atención que puede traducir directamente el habla de un idioma a otro sin depender de una representación textual intermedia. La red se entrena de extremo a extremo, aprendiendo a mapear espectrogramas de habla en espectrogramas objetivos en otro idioma, correspondientes al contenido traducido (en una voz canónica diferente). Además, demostramos la capacidad de sintetizar el habla traducida utilizando la voz del hablante original. Realizamos experimentos en dos conjuntos de datos de traducción de habla de español a inglés y encontramos que el modelo propuesto tiene un rendimiento ligeramente inferior a un modelo de referencia en cascada de un modelo de traducción directa de habla a texto y un modelo de síntesis de texto a habla, demostrando la viabilidad del enfoque en esta tarea muy desafiante.

Traducción Directa de Voz a Voz con un Modelo de Secuencia a Secuencia

Puntos clave

Resumen

Cite This Study

Also Consider

Also Consider