Key points are not available for this paper at this time.
본 연구에서는 여러 화자의 단기 스펙트럼의 컴팩트한 표현을 구축하기 위해 딥 오토인코더를 훈련시켰습니다. 이 컴팩트 표현을 매핑 기능으로 사용하여 소스 음성 특징으로부터 목표 음성 특징을 예측하기 위한 인공 신경망을 훈련시켰습니다. 마지막으로, 훈련된 딥 오토인코더와 인공 신경망 가중치로부터 딥 뉴럴 네트워크를 구성하였고, 이는 역전파를 사용하여 미세 조정되었습니다. 제안된 방법을 가우시안 혼합 모델 및 프레임 선택을 사용하는 기존 방법과 비교하였습니다. 우리는 이 방법들을 객관적으로 평가하였고, 선택된 시스템의 변환 정확도와 음성 품질을 측정하기 위해 지각 실험을 실시하였습니다. 결과는 70개의 훈련 문장에 대해 프레임 선택이 정확도와 품질 모두에 있어 가장 우수한 성능을 보였음을 보여주었습니다. 두 개의 훈련 문장만 사용했을 때는 사전 훈련된 딥 뉴럴 네트워크가 정확도와 품질 모두에서 가장 좋은 성능을 나타냈습니다.
Mohammadi 외 (Mon,) 이 질문을 연구하였습니다.