Key points are not available for this paper at this time.
최근 제로샷 다중 화자 음성 합성(TTS) 모델이 인상적인 결과를 달성하고 있지만, 일반적으로 수많은 화자들로부터의 방대한 전사 음성 데이터 세트와 복잡한 학습 파이프라인에 의존합니다. 한편, 자기 지도 학습(SSL) 음성 특징은 TTS에 효과적인 중간 표현으로 부상하였습니다. 서로 선형적으로 가까운 다양한 화자들의 SSL 특징이 개별 화자 정체성을 유지하면서 음성 정보 공유가 관찰되었으며, 이는 직관적이고 강력한 음성 복제를 가능하게 합니다. 본 연구에서는 단일 화자로부터 전사된 음성을 바탕으로 훈련된 경량의 효율적인 제로샷 TTS 프레임워크인 SSL-TTS를 소개합니다. SSL-TTS는 SSL 특징과 검색 방법을 활용하여 간단하고 강력한 제로샷 다중 화자 합성을 지원합니다. 객관적 및 주관적 평가 결과, 우리의 접근 방식이 훨씬 더 큰 훈련 데이터 세트를 요구하는 최첨단 모델과 유사한 성능을 달성함을 보여줍니다. 낮은 훈련 데이터 요구 조건은 SSL-TTS가 자원이 부족한 영역 및 언어에 대한 다중 화자 TTS 시스템 개발에 적합하다는 것을 의미합니다. 우리는 또한 음성을 혼합하여 출력 음성에 대한 세밀한 제어를 가능하게 하는 보간 매개변수를 소개합니다. 데모 샘플은 https://idiap.github.io/ssl-tts에서 확인할 수 있습니다.
Hajal 외(화요일)는 이 질문에 대해 연구하였습니다.