전이 학습 기법을 향하여 — BERT, DistilBERT, BERTimbau, DistilBERTimbau를 통한 다양한 언어의 자동 텍스트 분류: 사례 연구

Key Points

Key points are not available for this paper at this time.

Abstract

사물인터넷은 여러 스마트 장치를 인터넷을 통해 상호 연결하여 사용자에게 유비쿼터스 서비스를 제공하는 패러다임입니다. 이 패러다임과 웹 2.0 플랫폼은 수많은 양의 텍스트 데이터를 생성합니다. 따라서 이 맥락에서 중요한 도전 과제는 자동으로 텍스트 분류를 수행하는 것입니다. 최근 뉴스 온라인으로 구성된 말뭉치에서 처음부터 학습된 언어 모델을 사용하여 텍스트 분류를 더 잘 처리함으로써 최첨단 결과가 얻어졌습니다. 우리가 강조할 수 있는 언어 모델은 BERT(Transformer의 양방향 인코더 표현)이며, DistilBERT는 사전 훈련된 더 작은 범용 언어 표현 모델입니다. 이 맥락에서 사례 연구를 통해 우리는 서로 다른 데이터 세트에서 두 가지 언어(영어 및 브라질 포르투갈어)에 대해 앞서 언급한 두 모델로 텍스트 분류 작업을 수행할 것을 제안합니다. 결과는 영어 및 브라질 포르투갈어에 대한 DistilBERT의 훈련 시간이 더 큰 모델보다 약 45% 빠르며, 크기도 40% 작고, 균형 잡힌 데이터 세트에 대해 약 96%의 언어 이해 능력을 유지한다는 것을 보여줍니다.

Bookmark

View Full Paper

Bookmark

View Full Paper

전이 학습 기법을 향하여 — BERT, DistilBERT, BERTimbau, DistilBERTimbau를 통한 다양한 언어의 자동 텍스트 분류: 사례 연구

Key Points

Abstract

Cite This Study

Also Consider

Also Consider