이질적인 데이터 소스가 음성-텍스트 기초 모델에 미치는 영향

Key Points

Key points are not available for this paper at this time.

Abstract

Open Whisper 스타일 음성 모델(OWSM) 시리즈는 고급 음성-텍스트(S2T) 기초 모델을 구축하는 데 있어 완전한 투명성을 달성하기 위해 도입되었습니다. 이를 위해 OWSM 모델은 여러 면에서 이질적인 25개의 공개 음성 데이터 세트로 훈련됩니다. 본 연구에서는 데이터 이질성의 영향을 조사하고 해결하여 이전 모델을 개선한 OWSM v3.2를 도입함으로써 OWSM 시리즈를 발전시켰습니다. 본 연구는 각 데이터 세트에 대한 상세한 분석으로 시작되며, 여기에서 데이터 품질을 높이기 위한 프록시 작업을 통한 데이터 필터링 및 오픈 대규모 언어 모델(LLM)을 사용한 문장 부호 및 실제 표기법의 통합이라는 두 가지 주요 전략을 도출합니다. 다른 모든 구성은 동일하게 유지되며, OWSM v3.2는 15% 적은 훈련 데이터를 사용하면서 OWSM v3.1 기준보다 성능을 향상시킵니다.

이질적인 데이터 소스가 음성-텍스트 기초 모델에 미치는 영향

Key Points

Abstract

Cite This Study