Key points are not available for this paper at this time.
언어 모델은 현재 자연어 처리(NLP)에서 매우 광범위하게 사용되고 있으며, 그들의 다국어 처리 능력은 최근에 상당한 주목을 받고 있습니다. 그러나 현재의 분석은 거의 독점적으로 표준 벤치마크의 다국어 변형에 초점을 맞추고 있으며, 다국어 신호로서 깨끗한 사전 훈련 및 작업 특정 말뭉치에 의존하고 있습니다. 본 논문에서는 트위터에서 다국어 언어 모델을 훈련하고 평가하기 위한 모델인 XLM-T를 소개합니다. 본 논문에서는 (1) 30개 이상의 언어로 된 수백만 개의 트윗을 사전 훈련한 XLM-R (Conneau et al. 2020) 모델로 구성된 새로운 강력한 다국어 기준선과, 나중에 특정 작업에 맞게 미세 조정하는 데 사용할 수 있는 시작 코드를 제공하고, (2) 8개 언어로 통합된 감정 분석 트위터 데이터셋 세트와 그에 맞게 미세 조정된 XLM-T 모델을 제공합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Francesco Barbieri
University of Rome Tor Vergata
Luis Espinosa-Anke
Cardiff University
José Camacho-Collados
Cardiff University
Building similarity graph...
Analyzing shared references across papers
Loading...
Barbieri et al. (수요일,)은 이 문제를 연구했습니다.
synapsesocial.com/papers/6a1d9c117328fa9a742fc077 — DOI: https://doi.org/10.63317/4fhqtpvii3vg