May 19, 2005

펜 실험실 중국어 트리뱅크: 대규모 말뭉치의 구문 구조 주석

Key Points

Key points are not available for this paper at this time.

Abstract

중국어 처리에 대한 관심이 커짐에 따라, 전 세계적으로 중국어를 위한 다양한 NLP 도구(예: 단어 분할기, 품사 태거 및 파서)가 개발되었습니다. 그러나 대규모 괄호가 있는 말뭉치가 공개되지 않기 때문에 이러한 도구는 서로 다른 분할 기준, 품사 태그 세트 및 괄호 지침으로 구성된 말뭉치에서 훈련되며, 그로 인해 비교가 어렵습니다. 이 문제를 해결하기 위한 첫 번째 단계로, 우리는 1998년 말부터 대규모 괄호가 있는 말뭉치를 준비해 왔습니다. 250,000 단어의 데이터로 구성된 말뭉치의 첫 두 부분이 완전히 분할되고, 품사 태그가 매겨지며, 구문적으로 괄호가 적용된 상태로 LDC( www.ldc.upenn.edu )를 통해 공개되었습니다. 본 논문에서는 여러 가지 중국어 언어 문제와 우리가 트리뱅크 작업에 미치는 영향을 논의하고, 주석 지침을 개발할 때 이러한 문제를 어떻게 해결하는지에 대해 설명합니다. 또한 주석 품질을 보장하면서 속도를 개선하기 위한 엔지니어링 전략에 대해서도 설명합니다.

Bookmark

펜 실험실 중국어 트리뱅크: 대규모 말뭉치의 구문 구조 주석

Key Points

Abstract

Cite This Study