December 1, 2017Open Access

서브워드 정보를 활용한 단어 벡터 강화

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 비지도 코퍼스에서 학습된 연속적인 단어 표현은 많은 자연어 처리 작업에 유용합니다. 이러한 표현을 학습하는 인기 있는 모델은 각 단어에 고유한 벡터를 할당하여 단어의 형태소를 무시합니다. 이는 어휘가 방대하고 드문 단어가 많은 언어에서 특히 한계가 있습니다. 본 논문에서는 각 단어를 문자 n-그램의 집합으로 표현하는 skipgram 모델을 기반으로 한 새로운 접근 방식을 제안합니다. 각 문자 n-그램에 벡터 표현이 연결되며, 단어는 이러한 표현의 합으로 나타냅니다. 우리의 방법은 빠르며, 대규모 코퍼스에서 모델을 신속하게 학습할 수 있게 하고, 학습 데이터에 나타나지 않은 단어의 단어 표현도 계산할 수 있게 합니다. 우리는 아홉 가지 다른 언어에서 단어 표현을 평가하며, 단어 유사성 및 유추 작업 모두에서 수행합니다. 최근 제안된 형태소 단어 표현과 비교하여, 우리의 벡터가 이러한 작업에서 최첨단 성능을 달성함을 보여줍니다.

AI에게 질문

Bookmark

View Full Paper