April 18, 2024Open Access

원거리 언어 쌍에서 대형 언어 모델에 의한 동시 통역 말뭉치 구축

Key Points

Key points are not available for this paper at this time.

Abstract

동시 기계 번역(SiMT) 시스템에서 동시 통역(SI) 말뭉치를 사용한 훈련은 고품질이면서도 저지연 시스템을 달성하는 효과적인 방법입니다. 그러나 주석자의 능력 제한으로 인해 이러한 말뭉치를 구축하는 것은 매우 도전적이며, 기존의 SI 말뭉치는 제한적입니다. 따라서 우리는 기존의 음성 번역 말뭉치를 해석 스타일 데이터로 변환하는 방법을 제안하며, 대형 언어 모델(LLM-SI-Corpus)을 사용하여 원래의 단어 순서를 유지하고 전체 원본 내용을 보존합니다. 우리는 LLM-SI-Corpus로 텍스트-투-텍스트 및 음성-투-텍스트 환경에서 SiMT 모델을 미세 조정하면 지연 시간이 줄어들면서 오프라인 데이터셋으로 훈련된 모델과 동일한 품질 수준을 유지한다는 것을 보여줍니다. LLM-SI-Corpus는 https://github.com/yusuke1997/LLM-SI-Corpus에서 이용 가능합니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper