Key points are not available for this paper at this time.
자동 음성 인식(ASR)에서 유의미한 발전이 있었음에도 불구하고 열악한 조건에서는 성능이 저하되는 경향이 있습니다. 생성적 오류 수정(GER)은 대형 언어 모델(LLM)의 탁월한 텍스트 이해 능력을 활용하여 ASR 오류 수정에서 인상적인 성능을 보여줍니다. 이때 N-베스트 가설이 전사 예측을 위한 귀중한 정보를 제공합니다. 그러나 GER은 고정된 N-베스트 가설, 불충분한 음향 정보 활용, 다중 억양 시나리오에 대한 제한된 특이성과 같은 문제에 직면해 있습니다. 본 논문에서는 다중 억양 시나리오에서 GER의 적용을 탐구합니다. 억양은 표준 발음 규범에서의 변이를 나타내며, 동시 ASR 및 억양 인식(AR) 위한 다중 작업 학습 프레임워크는 다중 억양 시나리오를 효과적으로 해결하여 두드러진 해결책이 되었습니다. 본 연구에서는 다중 모달 수정 및 다중 세분화 수정을 활용한 통합 ASR-AR GER 모델인 MMGER를 제안합니다. 다중 작업 ASR-AR 학습이 동적 1-베스트 가설 및 억양 임베딩을 제공합니다. 다중 모달 수정을 통해 음성의 음향 특징을 해당 문자 수준 1-베스트 가설 시퀀스와 강제로 정렬하여 세분화된 프레임 수준의 수정을 달성합니다. 다중 세분화 수정은 미세한 다중 모달 수정을 통해 전역 언어 정보를 보완하여 조대 수준의 발화 수정을 이룹니다. MMGER는 GER의 한계를 효과적으로 완화하고 다중 억양 시나리오에 맞게 LLM 기반 ASR 오류 수정을 조정합니다. 다중 억양 만다린 KeSpeech 데이터셋에서 진행된 실험은 MMGER의 효능을 입증하며, 확립된 표준 기준에 비해 AR 정확도에서 26.72%의 상대적 개선과 ASR 문자 오류율에서 27.55%의 상대적 감소를 달성하였습니다.
Mu et al. (Mon,)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: