Key points are not available for this paper at this time.
우리는 중간 텍스트 표현에 의존하지 않고 한 언어의 음성을 다른 언어의 음성으로 직접 번역할 수 있는 주의 기반의 순차적 변환 신경망을 제시합니다. 이 네트워크는 종단 간(end-to-end)으로 훈련되어, 번역된 내용(다른 표준 음성에 해당)에 대해 음성 스펙트로그램을 다른 언어의 목표 스펙트로그램으로 매핑하는 방법을 학습합니다. 우리는 또한 소스 화자의 목소리를 사용하여 번역된 음성을 합성할 수 있는 능력을 보여줍니다. 우리는 두 개의 스페인어-영어 음성 번역 데이터 세트에서 실험을 수행했으며, 제안된 모델이 직접 음성-텍스트 번역 모델과 텍스트-음성 합성 모델의 기준선 캐스케이드보다 약간 저조한 성능을 보임을 발견하여, 이 매우 도전적인 작업에서 접근 방법의 실행 가능성을 입증합니다.
Ye et al. (금요일) 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: