Los puntos clave no están disponibles para este artículo en este momento.
Presentamos una red neuronal de secuencia a secuencia basada en atención que puede traducir directamente el habla de un idioma a otro sin depender de una representación textual intermedia. La red se entrena de extremo a extremo, aprendiendo a mapear espectrogramas de habla en espectrogramas objetivos en otro idioma, correspondientes al contenido traducido (en una voz canónica diferente). Además, demostramos la capacidad de sintetizar el habla traducida utilizando la voz del hablante original. Realizamos experimentos en dos conjuntos de datos de traducción de habla de español a inglés y encontramos que el modelo propuesto tiene un rendimiento ligeramente inferior a un modelo de referencia en cascada de un modelo de traducción directa de habla a texto y un modelo de síntesis de texto a habla, demostrando la viabilidad del enfoque en esta tarea muy desafiante.
Ye et al. (Fri,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: