Key points are not available for this paper at this time.
크라우드소싱을 이용하여 병렬 문서를 포함하는 10,000개 이상의 URL 쌍(병렬 최상위 페이지 쌍)의 이중 언어 웹사이트를 수집하고, 이러한 웹사이트로부터 460만 개의 문장 쌍을 갖춘 일본어-중국어 병렬 코퍼스를 생성하였습니다. 문서 및 문장 정렬에는 16만 개의 단어 쌍을 포함한 일본어-중국어 이중 언어 사전을 사용하였습니다. 이후 통계적 언어 모델과 단어 번역 확률에 기반한 병렬 코퍼스 필터를 학습하기 위해 120만 개의 고품질 일본어-중국어 문장 쌍을 사용하였습니다. 우리는 이러한 460만 개의 문장 쌍으로 학습한 모델의 번역 정확도를 CCMatrix(1240만 개)에서의 일본어-중국어 문장 쌍으로 학습한 모델의 정확도와 비교하였습니다. 우리 코퍼스는 CCMatrix의 크기의 3분의 1에 불과하지만, 두 모델의 정확도가 유사하다는 것을 발견하였고, 병렬 데이터의 웹 마이닝을 위해 크라우드소싱을 사용하는 것이 가능하다는 것을 확인하였습니다.
Nagata et al. (Tue,)는 이 질문을 연구하였습니다.