September 1, 2024Open Access

텍스트-디사트릭-스피치 합성을 통한 디사르트릭 자동 음성 인식을 위한 훈련 데이터 증강

WLWing-Zin LeungUniversity of Sheffield MCMattias CrossUniversity of Sheffield ARAnton RagniUniversity of Sheffield

Key Points

Key points are not available for this paper at this time.

Abstract

자동 음성 인식(ASR) 연구는 최근 몇 년 간 인상적인 성과를 달성하였으며, 디사르트리아(PwD)가 보완적 및 대체 의사소통(AAC)과 가정 환경 시스템에 접근할 수 있도록 하는 데 중요한 잠재력을 가지고 있습니다. 그러나 디사르트릭 ASR(DASR)에서의 진전은 디사르트릭 음성의 높은 변동성과 디사르트릭 훈련 데이터의 공공 가용성 부족으로 제한되었습니다. 본 논문은 대규모 ASR 모델을 미세 조정하기 위한 텍스트-디사트릭-스피치(TTDS) 합성을 이용한 데이터 증강이 DASR에 효과적임을 보여줍니다. 특히, 확산 기반 텍스트-음성(TTS) 모델은 디사르트릭 음성과 유사한 음성 샘플을 생성할 수 있으며, 이는 ASR 기본 모델(이 경우 Whisper)의 미세 조정을 위한 추가 훈련 데이터로 사용될 수 있습니다. 결과는 현재 DASR 기준선과 비교했을 때 제안된 다중 화자 확산 기반 TTDS 데이터 증강이 ASR 미세 조정에 대한 합성 메트릭 및 ASR 성능이 향상되었음을 보여줍니다.

AI에게 질문

Bookmark

View Full Paper