May 14, 2024Open Access

크라우드소싱을 이용한 일본어-중국어 병렬 코퍼스 웹 마이닝

Key Points

Key points are not available for this paper at this time.

Abstract

크라우드소싱을 이용하여 병렬 문서를 포함하는 10,000개 이상의 URL 쌍(병렬 최상위 페이지 쌍)의 이중 언어 웹사이트를 수집하고, 이러한 웹사이트로부터 460만 개의 문장 쌍을 갖춘 일본어-중국어 병렬 코퍼스를 생성하였습니다. 문서 및 문장 정렬에는 16만 개의 단어 쌍을 포함한 일본어-중국어 이중 언어 사전을 사용하였습니다. 이후 통계적 언어 모델과 단어 번역 확률에 기반한 병렬 코퍼스 필터를 학습하기 위해 120만 개의 고품질 일본어-중국어 문장 쌍을 사용하였습니다. 우리는 이러한 460만 개의 문장 쌍으로 학습한 모델의 번역 정확도를 CCMatrix(1240만 개)에서의 일본어-중국어 문장 쌍으로 학습한 모델의 정확도와 비교하였습니다. 우리 코퍼스는 CCMatrix의 크기의 3분의 1에 불과하지만, 두 모델의 정확도가 유사하다는 것을 발견하였고, 병렬 데이터의 웹 마이닝을 위해 크라우드소싱을 사용하는 것이 가능하다는 것을 확인하였습니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper